Snowflake 的前沿嵌入模型。 Arctic Embed 2.0 增加了多语言支持,同时不牺牲英语性能或可扩展性。

嵌入 568m

37.2K 3 个月前

自述文件

Snowflake 很高兴地宣布发布 Arctic Embed 2.0,这是我们前沿嵌入模型的下一次迭代,现在可以支持多语言搜索。 虽然我们之前的版本受到了我们的客户、合作伙伴和开源社区的好评,并导致了数百万次的下载,但我们一直收到一个要求:您能否使此模型支持多语言? Arctic Embed 2.0 以我们之前版本的强大基础为基础,增加了多语言支持,同时不牺牲英语性能或可扩展性,以满足更广泛的用户群的需求,这些用户群涵盖了广泛的语言和应用程序。

Snowflake data 图 1. 参数少于 1B 的开源多语言嵌入模型的单向量密集检索性能。 分数是 MTEB 检索以及涵盖英语、法语、西班牙语、意大利语和德语的 CLEF (ELRA, 2006) 子集的平均 nDCG@10。

Arctic Embed 2.0 的多样化且强大的功能集

  1. 企业就绪的吞吐量和效率: Arctic Embed 2.0 模型专为大规模企业需求而构建。 即使是我们的“大型”模型,其参数也远低于 1B,并提供快速、高吞吐量的嵌入功能。 根据内部测试,它在 NVIDIA A10 GPU 上轻松处理每秒 100 多个文档(平均),并实现低于 10 毫秒的查询嵌入延迟,从而可以在经济实惠的硬件上进行实际部署。
  2. 不妥协的英语和非英语检索质量: 尽管 Arctic Embed 2.0 模型尺寸紧凑,但在各种英语和非英语基准数据集上都实现了令人印象深刻的 NDCG@10 分数,这表明即使对于未包含在训练配方中的语言,也具有良好的泛化能力。 这些令人印象深刻的基准分数使 Arctic Embed 2.0 成为前沿检索模型中的领导者。
  3. 通过 Matryoshka Representation Learning (MRL) 实现可扩展的检索: Arctic Embed 2.0 版本包含与 Arctic Embed 1.5 中引入的相同的量化友好的 MRL 功能,允许用户在对大型数据集执行搜索时降低成本并优化规模。 通过两种模型尺寸,用户只需每个向量 128 字节即可实现高质量的检索(比 OpenAI 流行的 text-embedding-3-large 模型 1 的未压缩嵌入小 96 倍)。 就像 Arctic Embed 1.5 一样,Arctic Embed 2.0 模型在压缩状态下也优于几个 MRL 支持的同类产品,具有明显更低的质量下降和更高的基准分数。
  4. 真正开源: Arctic Embed 2.0 模型根据宽松的 Apache 2.0 许可证发布。