Deepseek-R1-Distilled-Qwen-1.5B 的一个微调版本,仅使用 15 亿参数,就在流行的数学评估中超越了 OpenAI 的 o1-preview 的性能。
1.5b
66.3K 拉取次数 更新于 4 周前
更新于 4 周前
4 周前
0031bcf7459f · 3.6GB
模型
架构qwen2
·
参数1.78B
·
量化F16
3.6GB
参数
{ "stop": [ "<|begin of sentence|>", "<|end of sentence|>",
179B
模板
{{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice
387B
许可证
MIT License Copyright (c) 2025 Agentica Permission is hereby granted, free of charge, to any perso
1.1kB
自述文件
DeepScaleR
🚀 将 LLM 的强化学习民主化 🌟
DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,它使用分布式强化学习 (RL) 来扩展到长上下文长度。 该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,比基础模型 (28.8%) 提高了 15%,并且仅使用 15 亿个参数就超越了 OpenAI 的 O1-Preview 性能。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | Olympiad Bench | 平均 |
---|---|---|---|---|---|---|
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
数据
我们的训练数据集包含大约 40,000 个独特的题目-答案对,这些对来自
- AIME 问题 (1984-2023)
- AMC 问题 (2023 年之前)
- Omni-MATH 数据集
- Still 数据集
评估
我们在竞赛级别的数学基准上评估我们的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。 下面报告了 Pass@1 准确率,每个问题平均取 16 个样本。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | 平均 |
---|---|---|---|---|---|---|
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
Still-1.5B | 32.5 | 84.4 | 66.7 | 29.0 | 45.4 | 51.6 |
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
我们将 DeepScaleR 与我们使用的基本 DeepSeek 模型以及探索 RL 用于推理任务的最新学术著作进行了比较。 DeepScaleR 在所有基准测试中均显着优于基础模型,在 AIME2024 上实现了 14.4% 的绝对收益,整体提高了 8.1%。 此外,DeepScaleR 超越了最近的学术著作,如 rSTAR、Prime 和 SimpleRL,这些著作都是基于 7B 模型进行微调的。 DeepScaleR 仅使用 15 亿个参数即可实现 O1-preview 级别的性能,这是一种显着的效率提升。