Mistral Small 3 在 70B 以下的“小型”大型语言模型类别中树立了新的标杆。

工具 22b 24b

298.6K 5 周前

自述文件

Mistral Small 3 在 70B 以下的“小型”大型语言模型类别中树立了新的标杆,拥有 24B 个参数,并实现了可与更大型模型相媲美的最先进的功能。

Mistral Small 可以在本地部署,并且非常“知识密集”,量化后可以装入单个 RTX 4090 或 32GB RAM MacBook。 非常适合

  • 快速响应对话代理。
  • 低延迟函数调用。
  • 通过微调的主题专家。
  • 适用于处理敏感数据的业余爱好者和组织的本地推理。

主要特点

  • 多语言: 支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
  • 以代理为中心: 提供一流的代理功能,具有本机函数调用和 JSON 输出。
  • 高级推理: 最先进的会话和推理能力。
  • Apache 2.0 许可证: 开放许可证,允许将使用和修改用于商业和非商业目的。
  • 上下文窗口: 32k 上下文窗口。
  • 系统提示: 保持对系统提示的强大遵守和支持。
  • 分词器: 使用具有 131k 词汇量的 Tekken 分词器。

人工评估

Human ratings

我们与外部第三方供应商对一组超过 1k 个专有编码和通用提示进行了并排评估。 评估人员的任务是从 Mistral Small 3 与另一个模型生成的匿名生成内容中选择他们偏好的模型响应。 我们知道,在某些情况下,人工判断的基准与公开可用的基准存在显着差异,但我们已格外小心地验证了公平的评估。 我们相信上述基准是有效的。

指令性能

我们的指令调整模型在代码、数学、一般知识和指令跟踪基准方面与比其大三倍的开放权重模型以及专有的 GPT4o-mini 模型相比具有竞争力。

instruct performance instruct performance

instruct performance

所有基准的性能准确性均通过相同的内部评估管道获得 - 因此,数字可能与之前报告的性能略有不同(Qwen2.5-32B-Instruct、Llama-3.3-70B-Instruct、Gemma-2-27B-IT)。 基于 gpt-4o-2024-05-13 的 Wildbench、Arena hard 和 MTBench 等评估。

客户正在多个行业评估 Mistral Small 3,包括

  • 金融服务客户用于欺诈检测
  • 医疗保健提供商用于客户分类
  • 机器人、汽车和制造公司用于设备上的命令和控制
  • 跨客户的横向用例包括虚拟客户服务以及情感和反馈分析。