smallthinker:3b-preview-fp16

一个基于 Qwen2.5-3b-Instruct 模型微调的新模型。

SmallThinker 专为以下用例设计

边缘部署：其小尺寸使其非常适合部署在资源受限的设备上。
QwQ-32B-Preview 的草稿模型：SmallThinker 可以作为更大的 QwQ-32B-Preview 模型的快速高效草稿模型，从而提高 70% 的速度。

为了实现推理能力，生成长的 COT 推理链至关重要。因此，基于 QWQ-32B-Preview，作者使用各种合成技术（例如 personahub）创建了 QWQ-LONGCOT-500K 数据集。与其他类似数据集相比，作者的样本中超过 75% 的输出令牌超过 8K。为了鼓励开源社区的研究，该数据集也已公开。

参考文献

Hugging Face

一个基于 Qwen 2.5 3B Instruct 模型微调的新的小型推理模型。

自述文件

参考文献