一个强大的专家混合(MoE)语言模型,总共有 6710 亿参数,每个 token 激活 370 亿参数。

6710亿

749.1K 8 周前

自述文件

注意:此模型需要 Ollama 0.5.5 或更高版本。

DeepSeek-V3 在推理速度上实现了相对于以前模型的重大突破。它在开源模型中名列前茅,并且可以与全球最先进的封闭源模型相媲美。

参考文献

GitHub

论文