Deepseek-R1-Distilled-Qwen-1.5B 的一个微调版本,仅用 15 亿参数即可在流行的数学评估中超越 OpenAI 的 o1-preview 的性能。

1.5b

66.3K 4 周前

Readme

DeepScaleR

🚀 普及 LLM 的强化学习🌟

DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,使用分布式强化学习 (RL) 来扩展到长上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,比基础模型 (28.8%) 提高了 15%,并且仅用 15 亿参数就超越了 OpenAI 的 O1-Preview 性能。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math Olympiad Bench 平均.
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
O1-Preview 40.0 81.4 - - - -

image.png

数据

我们的训练数据集包含大约 40,000 个独特的问答对,这些数据来自

  • AIME 问题(1984-2023)
  • AMC 问题(2023 年之前)
  • Omni-MATH 数据集
  • Still 数据集

评估

我们使用竞赛级别的数学基准评估我们的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。以下报告了 Pass@1 的准确性,每个问题平均超过 16 个样本。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均.
Qwen-2.5-Math-7B-Instruct 13.3 79.8 50.6 34.6 40.7 43.8
rStar-Math-7B 26.7 78.4 47.5 - 47.1 -
Eurus-2-7B-PRIME 26.7 79.2 57.8 38.6 42.1 48.9
Qwen2.5-7B-SimpleRL 26.7 82.4 62.5 39.7 43.3 50.9
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
Still-1.5B 32.5 84.4 66.7 29.0 45.4 51.6
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
O1-Preview 40.0 81.4 - - - -

我们将 DeepScaleR 与我们使用的基础 DeepSeek 模型以及最近探索 RL 进行推理任务的学术著作进行比较。 DeepScaleR 在所有基准测试中都显着优于基础模型,在 AIME2024 上实现了 14.4% 的绝对收益,总体提高了 8.1%。 此外,DeepScaleR 超过了最近的学术著作,例如 rSTAR、Prime 和 SimpleRL,这些都是从 7B 模型微调的。 DeepScaleR 仅用 15 亿参数即可达到 O1-preview 级别的性能——这是一个了不起的效率提升。

image.png

参考文献

文章

GitHub

Hugging Face