一个强大的混合专家(MoE)语言模型,总参数量为 671B,每个 token 激活 37B。

671b

749.1K 8 周前

自述文件

注意: 此模型需要 Ollama 0.5.5 或更高版本。

DeepSeek-V3 在推理速度上取得了对之前模型的重大突破。它在开源模型中名列前茅,并与全球最先进的闭源模型相媲美。

参考资料

GitHub

论文