Qwen2 MOE 57B
376 Pulls 更新于2个月前
更新于2个月前
2个月前
080537a690a5 · 35GB
模型
架构qwen2moe
·
参数57.4B
·
量化Q4_K_M
35GB
参数
{"停止":["<|im_start|>","<|im_end|>"]}
59B
模板
{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>
182B
说明文档
Qwen2-57B-A14B-Instruct
简介
Qwen2是Qwen大型语言模型的新系列。对于Qwen2,我们发布了一系列从0.5亿到72亿参数的基语言模型和指令微调语言模型,包括一个专家混合模型。此存储库包含指令微调的57B-A14B专家混合Qwen2模型。
与最先进的开源语言模型相比,包括之前发布的Qwen1.5,Qwen2在大多数开源模型上普遍领先,并在针对语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出与专有模型的竞争力。
Qwen2-57B-A14B-Instruct支持的最大上下文字长为65,536个token,能够处理大量的输入。请参阅本部分详细了解如何部署Qwen2处理长文本的详细说明。
更多信息,请参阅我们的博客和GitHub。
模型详情
Qwen2是一个包含不同模型大小解码语言模型的系列。对于每个大小,我们发布基语言模型和对齐的聊天模型。它基于Transformer架构,使用SwiGLU激活、QKV偏置、组查询注意力等。此外,我们还有一个改进的tokenizer,适应多种自然语言和代码。
评估
我们简要比较了Qwen2-57B-A14B-Instruct与类似规模的指令微调LLM,包括Qwen1.5-32B-Chat。结果如下
从 https://hf-mirror.com/Qwen/Qwen2-57B-A14B-Instruct 导入