阿里巴巴国际数字商业集团 (AIDC-AI) 针对现实世界解决方案开发的开放大型推理模型。

7b

33.3K 3 个月前

自述文件

  • 使用 CoT 数据进行微调:我们通过使用开源 CoT 数据集与我们自主开发的合成数据相结合,对基础模型执行全参数微调来开发 Marco-o1-CoT
  • 通过 MCTS 扩展解决方案空间:我们将 LLM 与 MCTS 集成(Marco-o1-MCTS),使用模型的输出置信度来指导搜索并扩展解决方案空间。
  • 推理动作策略:我们实施了新的推理动作策略和反思机制(Marco-o1-MCTS mini-step),包括探索 MCTS 框架内不同的动作粒度并提示模型进行自我反思,从而显着增强了模型解决复杂问题的能力。
  • 在翻译任务中的应用:我们是第一个将大型推理模型 (LRM) 应用于 机器翻译任务 的人,探索多语言和翻译领域中的推理时间缩放定律。

用法

ollama run marco-o1 "How many Rs are in strawberry?"

解析 <Output></Output> 之间的结果字符串

...
<Output>
There are 3 Rs in strawberry.
</Output>

参考

GitHub

HuggingFace