更新于 6 天前
6 天前
cc1091b0e276 · 20GB
模型
架构qwen2
·
参数32.8B
·
量化Q4_K_M
20GB
参数
{ "stop": [ "<|im_start|>", "<|im_end|>" ], "temperature": 0.6 }
77B
模板
{{- if or .System .Tools }}<|im_start|>system {{- if .System }} {{ .System }} {{- end }} {{- if .Too
1.2kB
许可证
Apache License Version 2.0, January 2004
11kB
自述文件
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,可以在下游任务中实现显著增强的性能,尤其是在难题方面。QwQ-32B 是中等规模的推理模型,能够实现与最先进的推理模型(例如,DeepSeek-R1、o1-mini)相媲美的性能。
未来工作
这标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面迈出的第一步。通过这一旅程,我们不仅见证了大规模 RL 的巨大潜力,还认识到预训练语言模型中蕴藏的未开发可能性。当我们努力开发下一代 Qwen 时,我们相信将更强大的基础模型与由大规模计算资源驱动的 RL 相结合,将推动我们更接近实现通用人工智能 (AGI)。此外,我们正在积极探索将代理与 RL 集成,以实现长时程推理,旨在通过推理时间缩放来释放更大的智能。