Deepseek-R1-Distilled-Qwen-1.5B 的一个微调版本,仅用 15 亿参数即可在流行的数学评估中超越 OpenAI 的 o1-preview 的性能。
1.5b
66.3K 拉取 更新于 4 周前
更新于 4 周前
4 周前
0031bcf7459f · 3.6GB
模型
架构qwen2
·
参数1.78B
·
量化F16
3.6GB
参数
{ "stop": [ "<|begin of sentence|>", "<|end of sentence|>",
179B
模板
{{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice
387B
许可
MIT License Copyright (c) 2025 Agentica Permission is hereby granted, free of charge, to any perso
1.1kB
Readme
DeepScaleR
🚀 普及 LLM 的强化学习🌟
DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,使用分布式强化学习 (RL) 来扩展到长上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,比基础模型 (28.8%) 提高了 15%,并且仅用 15 亿参数就超越了 OpenAI 的 O1-Preview 性能。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | Olympiad Bench | 平均. |
---|---|---|---|---|---|---|
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
数据
我们的训练数据集包含大约 40,000 个独特的问答对,这些数据来自
- AIME 问题(1984-2023)
- AMC 问题(2023 年之前)
- Omni-MATH 数据集
- Still 数据集
评估
我们使用竞赛级别的数学基准评估我们的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。以下报告了 Pass@1 的准确性,每个问题平均超过 16 个样本。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | 平均. |
---|---|---|---|---|---|---|
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
Still-1.5B | 32.5 | 84.4 | 66.7 | 29.0 | 45.4 | 51.6 |
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
我们将 DeepScaleR 与我们使用的基础 DeepSeek 模型以及最近探索 RL 进行推理任务的学术著作进行比较。 DeepScaleR 在所有基准测试中都显着优于基础模型,在 AIME2024 上实现了 14.4% 的绝对收益,总体提高了 8.1%。 此外,DeepScaleR 超过了最近的学术著作,例如 rSTAR、Prime 和 SimpleRL,这些都是从 7B 模型微调的。 DeepScaleR 仅用 15 亿参数即可达到 O1-preview 级别的性能——这是一个了不起的效率提升。