qwen2.5-coder:7b - Ollama 框架

qwen2.5-coder

自述文件

Qwen 2.5 Coder系列模型现在更新了6个尺寸：**0.5B、1.5B、3B、7B、14B和32B**。

在**代码生成**、**代码推理**和**代码修复**方面有显著改进。 32B模型具有与OpenAI的GPT-4o竞争的性能。

**32B：** ollama run qwen2.5-coder:32b

**14B：** ollama run qwen2.5-coder:14b

**7B：** ollama run qwen2.5-coder:7b

**3B：** ollama run qwen2.5-coder:3b

**1.5B：** ollama run qwen2.5-coder:1.5b

**0.5B：** ollama run qwen2.5-coder:0.5b

代码能力达到开源模型的最新水平

**代码生成：** Qwen2.5 Coder 32B Instruct作为此开源版本的旗舰模型，在多个流行的代码生成基准（EvalPlus、LiveCodeBench、BigCodeBench）上取得了开源模型中的最佳性能，并具有与GPT-4o竞争的性能。

**代码修复：** 代码修复是一项重要的编程技能。 Qwen2.5 Coder 32B Instruct可以帮助用户修复代码中的错误，从而提高编程效率。 Aider是代码修复的一个流行基准，Qwen2.5 Coder 32B Instruct的得分为73.7，与Aider上的GPT-4o相当。

**代码推理：** 代码推理是指模型学习代码执行过程并准确预测模型输入和输出的能力。最近发布的Qwen2.5 Coder 7B Instruct已经在代码推理方面表现出了令人印象深刻的性能，而这个32B模型更进一步。

多种编程语言

一个智能编程助手应该熟悉所有编程语言。 Qwen 2.5 Coder 32B在超过40种编程语言中表现出色，在McEval上的得分为65.9，在Haskell和Racket等语言中表现出色。 Qwen团队在预训练阶段使用了自己独特的数据清理和平衡方法。

此外，Qwen 2.5 Coder 32B Instruct的多语言代码修复能力仍然令人印象深刻，可以帮助用户理解和修改他们熟悉的编程语言，从而大大降低了不熟悉语言的学习成本。与McEval类似，MdEval是一个多语言代码修复基准，Qwen 2.5 Coder 32B Instruct的得分是75.2，在所有开源模型中排名第一。

人类偏好

为了评估Qwen 2.5 Coder 32B Instruct与人类偏好的一致性表现，我们构建了一个内部注释的代码偏好评估基准，称为Code Arena（类似于Arena Hard）。我们使用GPT-4o作为偏好对齐的评估模型，采用“A vs. B win”评估方法，该方法衡量测试集中模型A的分数超过模型B的分数的实例百分比。以下结果证明了Qwen 2.5 Coder 32B Instruct在偏好对齐方面的优势。

全面的模型尺寸以适应您的设备

参考

博客文章

HuggingFace

Qwen 2.5 Coder series of models are now updated in 6 sizes: **0.5B, 1.5B, 3B, 7B, 14B and 32B**.

There are significant improvements in **code generation**, **code reasoning** and **code fixing**. The 32B model has competitive performance with OpenAI's GPT-4o.

**32B:** 
`ollama run qwen2.5-coder:32b`

**14B:** 
`ollama run qwen2.5-coder:14b`

**7B:** 
`ollama run qwen2.5-coder:7b`

**3B:**
`ollama run qwen2.5-coder:3b`

**1.5B:**
`ollama run qwen2.5-coder:1.5b`

**0.5B:**
`ollama run qwen2.5-coder:0.5b`

### Code capabilities reaching state of the art for open-source models

![Comparison benchmarks](/assets/library/qwen2.5-coder/05059413-3cc4-4b07-b546-001594d0ae26)

**Code Generation:** Qwen2.5 Coder 32B Instruct, as the flagship model of this open-source release, has achieved the best performance among open-source models on multiple popular code generation benchmarks (EvalPlus, LiveCodeBench, BigCodeBench), and has competitive performance with GPT-4o.

**Code Repair:** Code repair is an important programming skill. Qwen2.5 Coder 32B Instruct can help users fix errors in their code, making programming more efficient. Aider is a popular benchmark for code repair, and Qwen2.5 Coder 32B Instruct scored 73.7, performing comparably to GPT-4o on Aider.

**Code Reasoning:** Code reasoning refers to the model’s ability to learn the process of code execution and accurately predict the model’s inputs and outputs. The recently released Qwen2.5 Coder 7B Instruct has already shown impressive performance in code reasoning, and this 32B model takes it a step further.

![Benchmarks](/assets/library/qwen2.5-coder/0bd9e1aa-a87b-474b-84ba-264a85041605)

### Multiple programming languages
An intelligent programming assistant should be familiar with all programming languages. Qwen 2.5 Coder 32B performs excellent across more than 40 programming languages, scoring 65.9 on McEval, with impressive performances in languages like Haskell and Racket. The Qwen team used their own unique data cleaning and balancing during the pre-training phase.

![McEval Performance](/assets/library/qwen2.5-coder/6436978b-1371-48a4-a21a-b6da729b74e1)

Additionally, the multi-language code repair capabilities of Qwen 2.5 Coder 32B Instruct remain impressive, aiding users in understanding and modifying programming languages they are familiar with, significantly reducing the learning cost of unfamiliar languages. Similar to McEval, MdEval is a multi-language code repair benchmark, where Qwen 2.5 Coder 32B Instruct scored 75.2, ranking first among all open-source models.

![MdEval Performance](/assets/library/qwen2.5-coder/f2401bd6-f6d7-41ca-981d-98abc62f1493)

### Human Preference

To evaluate the alignment performance of Qwen 2.5 Coder 32B Instruct with human preferences, we constructed an internal annotated code preference evaluation benchmark called Code Arena (similar to Arena Hard). We used GPT-4o as the evaluation model for preference alignment, employing an ‘A vs. B win’ evaluation method, which measures the percentage of instances in the test set where model A’s score exceeds model B’s. The results below demonstrate the advantages of Qwen 2.5 Coder 32B Instruct in preference alignment.

![human preference](/assets/library/qwen2.5-coder/bbf378d8-c80e-4ae3-98ab-90111dfbf3e7)

### Comprehensive model sizes to fit your device

![Model sizes](/assets/library/qwen2.5-coder/752764ea-d510-4bc5-8658-dc5d8ba51019)

## References

[Blog Post](https://qwenlm.github.io/blog/qwen2.5-coder-family/)

[HuggingFace](https://hugging-face.cn/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f)

粘贴、拖放或单击以上传图像（.png、.jpeg、.jpg、.svg、.gif）

最新的Code-Specific Qwen模型系列，在代码生成、代码推理和代码修复方面有显著改进。

自述文件

代码能力达到开源模型的最新水平

多种编程语言

人类偏好

全面的模型尺寸以适应您的设备

参考