一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每次 token 激活 37B 个参数。

671b

748.8K 8 周前

自述文件

注意:此模型需要 Ollama 0.5.5 或更高版本。

DeepSeek-V3 在推理速度方面比之前的模型取得了重大突破。 它在开源模型中名列前茅,并与全球最先进的闭源模型相媲美。

参考文献

GitHub

论文