自述文件
Mistral Small 3 在 70B 以下的“小型”大型语言模型类别中树立了新的标杆,拥有 24B 参数,并实现了与更大型模型相媲美的最先进功能。
Mistral Small 可以在本地部署,并且非常“知识密集”,量化后可以放入单个 RTX 4090 或 32GB RAM MacBook 中。 非常适合:
- 快速响应的会话代理。
- 低延迟函数调用。
- 通过微调的主题专家。
- 供爱好者和处理敏感数据的组织进行本地推理。
主要特点
- 多语言:支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
- 以代理为中心:提供一流的代理功能,具有本机函数调用和 JSON 输出。
- 高级推理:最先进的会话和推理功能。
- Apache 2.0 许可证:开放式许可证,允许将商业和非商业目的使用和修改。
- 上下文窗口: 32k 上下文窗口。
- 系统提示:保持对系统提示的强大遵守和支持。
- 分词器:使用 Tekken 分词器,词汇量为 131k。
人类评估
我们与外部第三方供应商一起进行并排评估,评估基于一组超过 1k 个专有的编码和通用提示。 评估人员的任务是从 Mistral Small 3 与另一个模型生成的匿名生成内容中选择他们喜欢的模型响应。 我们知道,在某些情况下,人类判断的基准与公开可用的基准截然不同,但我们在验证公平评估方面格外谨慎。 我们确信上述基准是有效的。
Instruct 性能
我们的指令调整模型在代码、数学、一般知识和指令遵循基准方面与三倍大小的开放权重模型以及专有的 GPT4o-mini 模型具有竞争力。
所有基准的性能准确性均通过相同的内部评估流程获得 - 因此,数字可能与之前报告的性能略有不同 (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT)。 Wildbench、Arena hard 和 MTBench 等基于判断的评估基于 gpt-4o-2024-05-13。
客户正在跨多个行业评估 Mistral Small 3,包括:
- 金融服务客户用于欺诈检测
- 医疗保健提供商用于客户分类
- 机器人、汽车和制造公司用于设备上的命令和控制
- 跨客户的横向用例包括虚拟客户服务以及情绪和反馈分析。