870万 6个月前

OpenAI 的开放权重模型,专为强大的推理、代理任务和多功能的开发者用例而设计。

工具 思考 20b 120b
ollama run gpt-oss

应用

Claude Code
Claude Code ollama launch claude --model gpt-oss
Codex
Codex ollama launch codex --model gpt-oss
OpenCode
OpenCode ollama launch opencode --model gpt-oss
OpenClaw
OpenClaw ollama launch openclaw --model gpt-oss

自述文件

OpenAI gpt-oss banner

欢迎使用 OpenAI 的 gpt-oss!

Ollama 与 OpenAI 合作,将 OpenAI 最新的最先进的开放权重模型带到 Ollama。 这两种模型,20B 和 120B,带来全新的本地聊天体验,专为强大的推理、代理任务和多功能的开发者用例而设计。

开始使用

您可以从 下载最新版本的 Ollama 开始。

该模型可以直接在 Ollama 的新应用程序中或通过终端下载

ollama run gpt-oss:20b

ollama run gpt-oss:120b

特性亮点

  • 代理能力: 使用模型的原生能力进行函数调用、网络浏览(Ollama 正在引入可选择启用内置网络搜索)、python 工具调用和结构化输出。
  • 完整的链式思考: 完全访问模型的推理过程,从而更容易调试并提高对输出的信任。
  • 可配置的推理力度: 根据您的特定用例和延迟需求,轻松调整推理力度(低、中、高)。
  • 可微调: 通过参数微调完全自定义模型以适应您的特定用例。
  • 宽松的 Apache 2.0 许可: 自由构建,无需复制保留限制或专利风险——非常适合实验、定制和商业部署。

benchmark

量化 - MXFP4 格式

OpenAI 利用量化来减少 gpt-oss 模型的内存占用。 这些模型经过了专家混合 (MoE) 权重的量化后训练,采用 MXFP4 格式,其中权重被量化为每个参数 4.25 位。 MoE 权重占总参数数的 90% 以上,将其量化为 MXFP4 使得较小的模型能够在内存仅为 16GB 的系统上运行,而较大的模型能够适应单个 80GB GPU。

Ollama 原生支持 MXFP4 格式,无需额外的量化或转换。 为 Ollama 的新引擎开发了新的内核以支持 MXFP4 格式。

Ollama 与 OpenAI 合作,针对参考实现进行基准测试,以确保 Ollama 的实现具有相同的质量。

20B 参数模型

gpt-oss 20B

gpt-oss-20b 模型专为低延迟、本地或专业用例而设计。

120B 参数模型

gpt-oss 120B

参考