qwen2.5-coder:32b - Ollama 框架

qwen2.5-coder

Readme

Qwen 2.5 Coder 系列模型现已更新至 6 种尺寸：0.5B、1.5B、3B、7B、14B 和 32B。

在代码生成、代码推理和代码修复方面有显著改进。 32B 模型具有与 OpenAI 的 GPT-4o 相媲美的性能。

32B: ollama run qwen2.5-coder:32b

14B: ollama run qwen2.5-coder:14b

7B: ollama run qwen2.5-coder:7b

3B: ollama run qwen2.5-coder:3b

1.5B: ollama run qwen2.5-coder:1.5b

0.5B: ollama run qwen2.5-coder:0.5b

代码能力达到开源模型的最佳水平

代码生成： Qwen2.5 Coder 32B Instruct 作为此开源版本的旗舰模型，在多个流行的代码生成基准测试（EvalPlus、LiveCodeBench、BigCodeBench）上实现了开源模型中的最佳性能，并具有与 GPT-4o 相媲美的性能。

代码修复： 代码修复是一项重要的编程技能。 Qwen2.5 Coder 32B Instruct 可以帮助用户修复代码中的错误，从而提高编程效率。 Aider 是一个流行的代码修复基准测试，Qwen2.5 Coder 32B Instruct 得分为 73.7，在 Aider 上的表现与 GPT-4o 相当。

代码推理： 代码推理是指模型学习代码执行过程并准确预测模型的输入和输出的能力。最近发布的 Qwen2.5 Coder 7B Instruct 已经在代码推理方面表现出令人印象深刻的性能，而此 32B 模型更进一步。

多种编程语言

一个智能编程助手应该熟悉所有编程语言。 Qwen 2.5 Coder 32B 在 40 多种编程语言中表现出色，在 McEval 上获得 65.9 分，在 Haskell 和 Racket 等语言中表现出色。 Qwen 团队在预训练阶段使用了自己独特的数据清理和平衡方法。

此外，Qwen 2.5 Coder 32B Instruct 的多语言代码修复能力仍然令人印象深刻，可帮助用户理解和修改他们熟悉的编程语言，从而大大降低不熟悉语言的学习成本。与 McEval 类似，MdEval 是一个多语言代码修复基准测试，Qwen 2.5 Coder 32B Instruct 得分为 75.2，在所有开源模型中排名第一。

人类偏好

为了评估 Qwen 2.5 Coder 32B Instruct 与人类偏好的一致性性能，我们构建了一个内部注释代码偏好评估基准，称为 Code Arena（类似于 Arena Hard）。我们使用 GPT-4o 作为偏好对齐的评估模型，采用“A vs. B 获胜”评估方法，该方法测量测试集中模型 A 的得分超过模型 B 的实例的百分比。以下结果证明了 Qwen 2.5 Coder 32B Instruct 在偏好对齐方面的优势。

全面的模型尺寸以适应您的设备

参考资料

博客文章

HuggingFace

Qwen 2.5 Coder series of models are now updated in 6 sizes: **0.5B, 1.5B, 3B, 7B, 14B and 32B**.

There are significant improvements in **code generation**, **code reasoning** and **code fixing**. The 32B model has competitive performance with OpenAI's GPT-4o.

**32B:** 
`ollama run qwen2.5-coder:32b`

**14B:** 
`ollama run qwen2.5-coder:14b`

**7B:** 
`ollama run qwen2.5-coder:7b`

**3B:**
`ollama run qwen2.5-coder:3b`

**1.5B:**
`ollama run qwen2.5-coder:1.5b`

**0.5B:**
`ollama run qwen2.5-coder:0.5b`

### Code capabilities reaching state of the art for open-source models

![Comparison benchmarks](/assets/library/qwen2.5-coder/05059413-3cc4-4b07-b546-001594d0ae26)

**Code Generation:** Qwen2.5 Coder 32B Instruct, as the flagship model of this open-source release, has achieved the best performance among open-source models on multiple popular code generation benchmarks (EvalPlus, LiveCodeBench, BigCodeBench), and has competitive performance with GPT-4o.

**Code Repair:** Code repair is an important programming skill. Qwen2.5 Coder 32B Instruct can help users fix errors in their code, making programming more efficient. Aider is a popular benchmark for code repair, and Qwen2.5 Coder 32B Instruct scored 73.7, performing comparably to GPT-4o on Aider.

**Code Reasoning:** Code reasoning refers to the model’s ability to learn the process of code execution and accurately predict the model’s inputs and outputs. The recently released Qwen2.5 Coder 7B Instruct has already shown impressive performance in code reasoning, and this 32B model takes it a step further.

![Benchmarks](/assets/library/qwen2.5-coder/0bd9e1aa-a87b-474b-84ba-264a85041605)

### Multiple programming languages
An intelligent programming assistant should be familiar with all programming languages. Qwen 2.5 Coder 32B performs excellent across more than 40 programming languages, scoring 65.9 on McEval, with impressive performances in languages like Haskell and Racket. The Qwen team used their own unique data cleaning and balancing during the pre-training phase.

![McEval Performance](/assets/library/qwen2.5-coder/6436978b-1371-48a4-a21a-b6da729b74e1)

Additionally, the multi-language code repair capabilities of Qwen 2.5 Coder 32B Instruct remain impressive, aiding users in understanding and modifying programming languages they are familiar with, significantly reducing the learning cost of unfamiliar languages. Similar to McEval, MdEval is a multi-language code repair benchmark, where Qwen 2.5 Coder 32B Instruct scored 75.2, ranking first among all open-source models.

![MdEval Performance](/assets/library/qwen2.5-coder/f2401bd6-f6d7-41ca-981d-98abc62f1493)

### Human Preference

To evaluate the alignment performance of Qwen 2.5 Coder 32B Instruct with human preferences, we constructed an internal annotated code preference evaluation benchmark called Code Arena (similar to Arena Hard). We used GPT-4o as the evaluation model for preference alignment, employing an ‘A vs. B win’ evaluation method, which measures the percentage of instances in the test set where model A’s score exceeds model B’s. The results below demonstrate the advantages of Qwen 2.5 Coder 32B Instruct in preference alignment.

![human preference](/assets/library/qwen2.5-coder/bbf378d8-c80e-4ae3-98ab-90111dfbf3e7)

### Comprehensive model sizes to fit your device

![Model sizes](/assets/library/qwen2.5-coder/752764ea-d510-4bc5-8658-dc5d8ba51019)

## References

[Blog Post](https://qwenlm.github.io/blog/qwen2.5-coder-family/)

[HuggingFace](https://hugging-face.cn/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f)

粘贴、拖放或单击以上传图像（.png、.jpeg、.jpg、.svg、.gif）