最新的Code-Specific Qwen模型系列,在代码生成、代码推理和代码修复方面有显著改进。
4.5M 拉取 更新于 4 个月前
更新于 4 个月前
4 个月前
1d3af8ce473e · 1.8GB
自述文件
Qwen 2.5 Coder 系列模型现在已更新为 6 种尺寸:0.5B、1.5B、3B、7B、14B 和 32B。
在代码生成、代码推理和代码修复方面有显著改进。32B 模型具有与 OpenAI 的 GPT-4o 竞争的性能。
32B: ollama run qwen2.5-coder:32b
14B: ollama run qwen2.5-coder:14b
7B: ollama run qwen2.5-coder:7b
3B: ollama run qwen2.5-coder:3b
1.5B: ollama run qwen2.5-coder:1.5b
0.5B: ollama run qwen2.5-coder:0.5b
代码能力达到开源模型的最新水平
代码生成: Qwen2.5 Coder 32B Instruct 作为此次开源版本的旗舰模型,在多个流行的代码生成基准测试(EvalPlus、LiveCodeBench、BigCodeBench)中取得了开源模型中的最佳性能,并且具有与 GPT-4o 竞争的性能。
代码修复: 代码修复是一项重要的编程技能。Qwen2.5 Coder 32B Instruct 可以帮助用户修复代码中的错误,从而提高编程效率。Aider 是一个流行的代码修复基准,Qwen2.5 Coder 32B Instruct 的得分为 73.7,与 GPT-4o 在 Aider 上的表现相当。
代码推理: 代码推理是指模型学习代码执行过程并准确预测模型的输入和输出的能力。最近发布的 Qwen2.5 Coder 7B Instruct 已经展示了令人印象深刻的代码推理性能,而这款 32B 模型在此基础上更进一步。
多种编程语言
一个智能编程助手应该熟悉所有编程语言。Qwen 2.5 Coder 32B 在 40 多种编程语言中表现出色,在 McEval 上的得分为 65.9,在 Haskell 和 Racket 等语言中表现出色。Qwen 团队在预训练阶段使用了他们自己独特的数据清理和平衡方法。
此外,Qwen 2.5 Coder 32B Instruct 的多语言代码修复能力仍然令人印象深刻,可以帮助用户理解和修改他们熟悉的编程语言,从而显著降低不熟悉语言的学习成本。与 McEval 类似,MdEval 是一个多语言代码修复基准,Qwen 2.5 Coder 32B Instruct 的得分为 75.2,在所有开源模型中排名第一。
人类偏好
为了评估 Qwen 2.5 Coder 32B Instruct 与人类偏好的一致性性能,我们构建了一个名为 Code Arena 的内部注释代码偏好评估基准(类似于 Arena Hard)。我们使用 GPT-4o 作为偏好一致性评估模型,采用“A vs. B win”评估方法,该方法衡量测试集中模型 A 的得分超过模型 B 的实例百分比。以下结果表明了 Qwen 2.5 Coder 32B Instruct 在偏好一致性方面的优势。