最新的Code-Specific Qwen模型系列,在代码生成、代码推理和代码修复方面有显著改进。

工具 0.5b 1.5b 3b 7b 14b 32b

4.5M 4个月前

自述文件

Qwen 2.5 Coder系列模型现在更新了6个尺寸:**0.5B、1.5B、3B、7B、14B和32B**。

在**代码生成**、**代码推理**和**代码修复**方面有显著改进。 32B模型具有与OpenAI的GPT-4o竞争的性能。

**32B:** ollama run qwen2.5-coder:32b

**14B:** ollama run qwen2.5-coder:14b

**7B:** ollama run qwen2.5-coder:7b

**3B:** ollama run qwen2.5-coder:3b

**1.5B:** ollama run qwen2.5-coder:1.5b

**0.5B:** ollama run qwen2.5-coder:0.5b

代码能力达到开源模型的最新水平

Comparison benchmarks

**代码生成:** Qwen2.5 Coder 32B Instruct作为此开源版本的旗舰模型,在多个流行的代码生成基准(EvalPlus、LiveCodeBench、BigCodeBench)上取得了开源模型中的最佳性能,并具有与GPT-4o竞争的性能。

**代码修复:** 代码修复是一项重要的编程技能。 Qwen2.5 Coder 32B Instruct可以帮助用户修复代码中的错误,从而提高编程效率。 Aider是代码修复的一个流行基准,Qwen2.5 Coder 32B Instruct的得分为73.7,与Aider上的GPT-4o相当。

**代码推理:** 代码推理是指模型学习代码执行过程并准确预测模型输入和输出的能力。 最近发布的Qwen2.5 Coder 7B Instruct已经在代码推理方面表现出了令人印象深刻的性能,而这个32B模型更进一步。

Benchmarks

多种编程语言

一个智能编程助手应该熟悉所有编程语言。 Qwen 2.5 Coder 32B在超过40种编程语言中表现出色,在McEval上的得分为65.9,在Haskell和Racket等语言中表现出色。 Qwen团队在预训练阶段使用了自己独特的数据清理和平衡方法。

McEval Performance

此外,Qwen 2.5 Coder 32B Instruct的多语言代码修复能力仍然令人印象深刻,可以帮助用户理解和修改他们熟悉的编程语言,从而大大降低了不熟悉语言的学习成本。 与McEval类似,MdEval是一个多语言代码修复基准,Qwen 2.5 Coder 32B Instruct的得分是75.2,在所有开源模型中排名第一。

MdEval Performance

人类偏好

为了评估Qwen 2.5 Coder 32B Instruct与人类偏好的一致性表现,我们构建了一个内部注释的代码偏好评估基准,称为Code Arena(类似于Arena Hard)。 我们使用GPT-4o作为偏好对齐的评估模型,采用“A vs. B win”评估方法,该方法衡量测试集中模型A的分数超过模型B的分数的实例百分比。 以下结果证明了Qwen 2.5 Coder 32B Instruct在偏好对齐方面的优势。

human preference

全面的模型尺寸以适应您的设备

Model sizes

参考

博客文章

HuggingFace