最新
15GB
4,203 引用 更新于8周前
README
gte-Qwen2-7B-instruct是gte(通用文本嵌入)模型系列中最新的模型,在大量文本嵌入基准MTEB上(截至2024年6月16日)在英语和中文评估中均排名第一。
最近,Qwen团队发布了Qwen2系列模型,我们基于Qwen2-7B LLM模型训练了gte-Qwen2-7B-instruct模型。与gte-Qwen1.5-7B-instruct模型相比,gte-Qwen2-7B-instruct模型在微调阶段的训练数据和策略相同,唯一不同的是升级了基础模型到Qwen2-7B。考虑到Qwen2系列模型相对于Qwen1.5系列的改进,我们也可以期待嵌入模型的一致性能提升。
该模型融合了几个关键进步
Integration of bidirectional attention mechanisms, enriching its contextual understanding.
Instruction tuning, applied solely on the query side for streamlined efficiency
Comprehensive training across a vast, multilingual text corpus spanning diverse domains and scenarios. This training leverages both weakly supervised and supervised data, ensuring the model's applicability across numerous languages and a wide array of downstream tasks.
模型信息
Model Size: 7B
Embedding Dimension: 3584
Max Input Tokens: 32k