rjmalagon / nxcode-cq-7b-orpo-v2-fp16

66 Pulls 8周前更新

8周前更新

8周前

1559dbf39c77 · 15GB

{"stop":["<|im_start|>","<|im_end|>"]}

{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>

README

简介

Nxcode-CQ-7B-orpo 是 Qwen/CodeQwen1.5-7B 在 100k 样本的高质量排序数据上的一个无参照模型的单一偏好优化微调版本，见 Monolithic Preference Optimization without Reference Model。

Evalplus

EvalPlus	pass@1
HumanEval	86.6
HumanEval+	83.5
MBPP(v0.2.0)	82.3
MBPP+(v0.2.0)	70.4

我们使用一个简单的模板来生成evalplus的解决方案。

"Complete the following Python function:\n{prompt}"

Evalplus排行榜

模型	HumanEval	HumanEval+
GPT-4-Turbo（2024年4月）	90.2	86.6
GPT-4（2023年5月）	88.4	81.17
GPT-4-Turbo（2023年11月）	85.4	79.3
CodeQwen1.5-7B-Chat	83.5	78.7
claude-3-opus（2024年3月）	82.9	76.8
DeepSeek-Coder-33B-instruct	81.1	75.0
WizardCoder-33B-V1.1	79.9	73.2
OpenCodeInterpreter-DS-33B	79.3	73.8
speechless-codellama-34B-v2.0	77.4	72
GPT-3.5-Turbo（2023年11月）	76.8	70.7
Llama3-70B-instruct	76.2	70.7

https://hugging-face.cn/NTQAI/Nxcode-CQ-7B-orpo