qwq

QwQ 是 Qwen 系列的推理模型。

工具 32b

868.5K 6 天前

自述文件

QwQ 是 Qwen 系列的推理模型。与传统的指令微调模型相比,QwQ 具有思考和推理的能力,可以在下游任务中实现显着增强的性能,尤其是在难题中。 QwQ-32B 是一款中型推理模型,能够与最先进的推理模型(例如 DeepSeek-R1、o1-mini)实现具有竞争力的性能。

未来工作

这标志着 Qwen 在扩展强化学习 (RL) 以增强推理能力方面迈出的第一步。 在此过程中,我们不仅见证了规模化 RL 的巨大潜力,而且认识到预训练语言模型中尚未开发的潜力。 当我们致力于开发下一代 Qwen 时,我们相信将更强大的基础模型与由规模化计算资源驱动的 RL 相结合,将推动我们更接近实现通用人工智能 (AGI)。 此外,我们正在积极探索将代理与 RL 集成,以实现长期推理,旨在通过推理时间缩放来释放更大的智能。

参考