66 拉取 更新时间 2 月前

README

简介

Nxcode-CQ-7B-orpo 是 Qwen/CodeQwen1.5-7B 在 100k 高质量排名数据上的工作,是一种无需参考模型的单一偏好优化。 Monolithic Preference Optimization without Reference Model

Evalplus

EvalPlus pass@1
HumanEval 86.6
HumanEval+ 83.5
MBPP(v0.2.0) 82.3
MBPP+(v0.2.0) 70.4

我们使用一个简单的模板生成 evalplus 的解决方案

"Complete the following Python function:\n{prompt}"

Evalplus 排行榜

模型 HumanEval HumanEval+
GPT-4 Turbo (2024年4月) 90.2 86.6
GPT-4 (2023年5月) 88.4 81.17
GPT-4 Turbo (2023年11月) 85.4 79.3
CodeQwen1.5-7B-Chat 83.5 78.7
claude-3-opus (2024年3月) 82.9 76.8
DeepSeek-Coder-33B-instruct 81.1 75.0
WizardCoder-33B-V1.1 79.9 73.2
OpenCodeInterpreter-DS-33B 79.3 73.8
speechless-codellama-34B-v2.0 77.4 72
GPT-3.5 Turbo (2023年11月) 76.8 70.7
Llama3-70B-instruct 76.2 70.7

https://hugging-face.cn/NTQAI/Nxcode-CQ-7B-orpo