rjmalagon / nxcode-cq-7b-orpo-v2-fp16

66 拉取更新时间 2 月前

更新时间 2 月前

2 月前

1559dbf39c77 · 15GB

{"stop":["<|im_start|>","<|im_end|>"]}

{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>

README

简介

Nxcode-CQ-7B-orpo 是 Qwen/CodeQwen1.5-7B 在 100k 高质量排名数据上的工作，是一种无需参考模型的单一偏好优化。 Monolithic Preference Optimization without Reference Model

Evalplus

EvalPlus	pass@1
HumanEval	86.6
HumanEval+	83.5
MBPP(v0.2.0)	82.3
MBPP+(v0.2.0)	70.4

我们使用一个简单的模板生成 evalplus 的解决方案

"Complete the following Python function:\n{prompt}"

Evalplus 排行榜

模型	HumanEval	HumanEval+
GPT-4 Turbo (2024年4月)	90.2	86.6
GPT-4 (2023年5月)	88.4	81.17
GPT-4 Turbo (2023年11月)	85.4	79.3
CodeQwen1.5-7B-Chat	83.5	78.7
claude-3-opus (2024年3月)	82.9	76.8
DeepSeek-Coder-33B-instruct	81.1	75.0
WizardCoder-33B-V1.1	79.9	73.2
OpenCodeInterpreter-DS-33B	79.3	73.8
speechless-codellama-34B-v2.0	77.4	72
GPT-3.5 Turbo (2023年11月)	76.8	70.7
Llama3-70B-instruct	76.2	70.7

https://hugging-face.cn/NTQAI/Nxcode-CQ-7B-orpo