3 个月前更新
3 个月前
44d5ed096b85 · 66GB
模型
架构qwen2
·
参数32.8B
·
量化F16
66GB
参数
{ "stop": [ "<|im_start|>", "<|im_end|>" ] }
59B
系统
您是一个有帮助且无害的助手。 您是由阿里巴巴开发的 Qwen。 您应该逐步思考
107B
模板
{{- if or .System .Tools }}<|im_start|>system {{- if .System }} {{ .System }} {{- end }} {{- if .Too
1.2kB
许可证
Apache License Version 2.0, January 2004
11kB
自述文件
QwQ 是 Qwen 系列的推理模型。 与传统的指令调整模型相比,QwQ 具有思考和推理的能力,可以在下游任务中实现显着增强的性能,尤其是在难题中。 QwQ-32B 是中等规模的推理模型,它能够实现与最先进的推理模型(例如,DeepSeek-R1、o1-mini)具有竞争力的性能。
未来的工作
这标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面的初步尝试。 通过这一过程,我们不仅看到了规模化强化学习的巨大潜力,而且认识到预训练语言模型中未开发的可能性。 在我们努力开发下一代 Qwen 的过程中,我们相信将更强大的基础模型与由规模化计算资源支持的强化学习相结合,将推动我们更接近实现通用人工智能 (AGI)。 此外,我们正在积极探索将代理与强化学习相结合,以实现长期推理,旨在通过推理时间扩展来释放更大的智能。