66 Pulls 8周前更新

README

简介

Nxcode-CQ-7B-orpo 是 Qwen/CodeQwen1.5-7B 在 100k 样本的高质量排序数据上的一个无参照模型的单一偏好优化微调版本,见 Monolithic Preference Optimization without Reference Model

Evalplus

EvalPlus pass@1
HumanEval 86.6
HumanEval+ 83.5
MBPP(v0.2.0) 82.3
MBPP+(v0.2.0) 70.4

我们使用一个简单的模板来生成evalplus的解决方案。

"Complete the following Python function:\n{prompt}"

Evalplus排行榜

模型 HumanEval HumanEval+
GPT-4-Turbo(2024年4月) 90.2 86.6
GPT-4(2023年5月) 88.4 81.17
GPT-4-Turbo(2023年11月) 85.4 79.3
CodeQwen1.5-7B-Chat 83.5 78.7
claude-3-opus(2024年3月) 82.9 76.8
DeepSeek-Coder-33B-instruct 81.1 75.0
WizardCoder-33B-V1.1 79.9 73.2
OpenCodeInterpreter-DS-33B 79.3 73.8
speechless-codellama-34B-v2.0 77.4 72
GPT-3.5-Turbo(2023年11月) 76.8 70.7
Llama3-70B-instruct 76.2 70.7

https://hugging-face.cn/NTQAI/Nxcode-CQ-7B-orpo