965K 7个月前

EmbeddingGemma 是 Google 的一个 300M 参数嵌入模型。

嵌入 300m
ollama pull embeddinggemma

自述文件

image.png

此模型需要 Ollama v0.11.10 或更高版本

EmbeddingGemma 是一个 3 亿参数的、在同等规模下处于最先进水平的开放嵌入模型,由 Google 基于 Gemma 3(采用 T5Gemma 初始化)构建,并使用了与创建 Gemini 模型相同的研究和技术。EmbeddingGemma 生成文本的向量表示,使其非常适合搜索和检索任务,包括分类、聚类和语义相似性搜索。该模型使用 100 多种口语语言的数据进行训练。

其小尺寸和设备端重点使其能够在资源有限的环境中部署,例如手机、笔记本电脑或台式机,从而使每个人都能以民主的方式访问最先进的 AI 模型,并有助于促进创新。

基准测试

image.png

训练数据集

该模型使用包含各种来源的文本数据的训练数据集进行训练,总计约 3200 亿个 token。以下是关键组成部分

  • 网页文档:各种各样的网页文本集合确保模型接触到广泛的语言风格、主题和词汇。训练数据集包括 100 多种语言的内容。
  • 代码和技术文档:将模型暴露于代码和技术文档有助于其学习编程语言和专业科学内容的结构和模式,从而提高其理解代码和技术问题的能力。
  • 合成和任务特定数据:合成训练数据有助于教会模型特定技能。这包括针对信息检索、分类和情感分析等任务的策划数据,这有助于微调其在常见嵌入应用中的性能。

这些不同数据源的结合对于训练一个功能强大的多语言嵌入模型至关重要,该模型可以处理各种不同的任务和数据格式。

参考

文档