DeepSeek-V2的升级版本,集成了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的通用和编码能力。

236b

49.9K 6 个月前

自述文件

DeepSeek-V2.5是DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的升级版本。 新模型集成了先前两个版本的通用和编码能力。

DeepSeek-V2.5更好地与人类偏好对齐,并在各个方面进行了优化,包括写作和指令遵循

指标 DeepSeek-V2-0628 DeepSeek-Coder-V2-0724 DeepSeek-V2.5
AlpacaEval 2.0 46.6 44.5 50.5
ArenaHard 68.3 66.3 76.2
AlignBench 7.88 7.91 8.04
MT-Bench 8.85 8.91 9.02
HumanEval python 84.5 87.2 89
HumanEval Multi 73.8 74.8 73.8
LiveCodeBench(01-09) 36.6 39.7 41.8
Aider 69.9 72.9 72.2
SWE-verified N/A 19 16.8
DS-FIM-Eval N/A 73.2 78.3
DS-Arena-Code N/A 49.5 63.1

参考

Hugging Face