Deepseek-R1-Distilled-Qwen-1.5B 的一个微调版本,仅使用 15 亿参数,就在流行的数学评估中超越了 OpenAI 的 o1-preview 的性能。

1.5b

66.3K 4 周前

自述文件

DeepScaleR

🚀 将 LLM 的强化学习民主化 🌟

DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,它使用分布式强化学习 (RL) 来扩展到长上下文长度。 该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,比基础模型 (28.8%) 提高了 15%,并且仅使用 15 亿个参数就超越了 OpenAI 的 O1-Preview 性能。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math Olympiad Bench 平均
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
O1-Preview 40.0 81.4 - - - -

image.png

数据

我们的训练数据集包含大约 40,000 个独特的题目-答案对,这些对来自

  • AIME 问题 (1984-2023)
  • AMC 问题 (2023 年之前)
  • Omni-MATH 数据集
  • Still 数据集

评估

我们在竞赛级别的数学基准上评估我们的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。 下面报告了 Pass@1 准确率,每个问题平均取 16 个样本。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均
Qwen-2.5-Math-7B-Instruct 13.3 79.8 50.6 34.6 40.7 43.8
rStar-Math-7B 26.7 78.4 47.5 - 47.1 -
Eurus-2-7B-PRIME 26.7 79.2 57.8 38.6 42.1 48.9
Qwen2.5-7B-SimpleRL 26.7 82.4 62.5 39.7 43.3 50.9
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
Still-1.5B 32.5 84.4 66.7 29.0 45.4 51.6
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
O1-Preview 40.0 81.4 - - - -

我们将 DeepScaleR 与我们使用的基本 DeepSeek 模型以及探索 RL 用于推理任务的最新学术著作进行了比较。 DeepScaleR 在所有基准测试中均显着优于基础模型,在 AIME2024 上实现了 14.4% 的绝对收益,整体提高了 8.1%。 此外,DeepScaleR 超越了最近的学术著作,如 rSTAR、Prime 和 SimpleRL,这些著作都是基于 7B 模型进行微调的。 DeepScaleR 仅使用 15 亿个参数即可实现 O1-preview 级别的性能,这是一种显着的效率提升。

image.png

参考文献

文章

GitHub

Hugging Face