Deepseek-R1-Distilled-Qwen-1.5B 的一个微调版本,仅用 1.5B 参数就在流行的数学评估中超越了 OpenAI 的 o1-preview 的性能。

1.5b

66.3K 4 周前

自述文件

DeepScaleR

🚀 民主化 LLM 的强化学习 🌟

DeepScaleR-1.5B-Preview 是一个使用分布式强化学习 (RL) 从 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,用于扩展到长上下文长度。 该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,比基础模型 (28.8%) 提高了 15%,并且仅使用 1.5B 参数就超过了 OpenAI 的 O1-Preview 性能。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math Olympiad Bench 平均.
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
O1-Preview 40.0 81.4 - - - -

image.png

数据

我们的训练数据集包含从以下来源编译的大约 40,000 个唯一的问题-答案对:

  • AIME 问题 (1984-2023)
  • AMC 问题(2023 年之前)
  • Omni-MATH 数据集
  • Still 数据集

评估

我们在竞赛级数学基准上评估我们的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。 以下报告了 Pass@1 准确率,每个问题平均超过 16 个样本。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均.
Qwen-2.5-Math-7B-Instruct 13.3 79.8 50.6 34.6 40.7 43.8
rStar-Math-7B 26.7 78.4 47.5 - 47.1 -
Eurus-2-7B-PRIME 26.7 79.2 57.8 38.6 42.1 48.9
Qwen2.5-7B-SimpleRL 26.7 82.4 62.5 39.7 43.3 50.9
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
Still-1.5B 32.5 84.4 66.7 29.0 45.4 51.6
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
O1-Preview 40.0 81.4 - - - -

我们将 DeepScaleR 与我们使用的基础 DeepSeek 模型以及探索 RL 进行推理任务的最新学术著作进行比较。 DeepScaleR 在所有基准测试中都显着优于基础模型,在 AIME2024 上实现了 14.4% 的绝对增益和 8.1% 的总体改进。 此外,DeepScaleR 超过了最近的学术著作,如 rSTAR、Prime 和 SimpleRL,它们都是从 7B 模型中微调而来。 DeepScaleR 仅使用 1.5B 参数即可实现 O1-preview 级别的性能——这是一个显着的效率提升。

image.png

参考

文章

GitHub

Hugging Face