一个基于 Qwen 2.5 3B Instruct 模型微调的全新小型推理模型。

3b

48.1K 2 个月前

自述文件

image.png

一个基于 Qwen2.5-3b-Instruct 模型微调的新模型。

SmallThinker 专为以下使用场景而设计

  • 边缘部署:其小尺寸使其成为在资源受限设备上部署的理想选择。
  • QwQ-32B-Preview 的草稿模型:SmallThinker 可以作为更大 QwQ-32B-Preview 模型的快速高效草稿模型,从而提高 70% 的速度。

为了实现推理能力,至关重要的是生成长的 COT 推理链。因此,基于 QWQ-32B-Preview,作者使用了各种合成技术(例如 personahub)来创建 QWQ-LONGCOT-500K 数据集。与其他类似数据集相比,作者超过 75% 的样本的输出 token 超过 8K。为了鼓励开源社区的研究,该数据集也已公开。

参考

Hugging Face