一个强大的混合专家 (MoE) 语言模型,总共有 671B 参数,每次 token 激活 37B。

671b

748.8K 8 周前

5 个标签
5da0e2d4a9e0 • 404GB • 8 周前
5da0e2d4a9e0 • 404GB • 8 周前
7770bf5a5ed8 • 1.3TB • 8 周前
5da0e2d4a9e0 • 404GB • 8 周前
96061c74c1a5 • 713GB • 8 周前