自述文件
Sailor2是一项社区驱动的倡议,旨在为东南亚 (SEA) 带来最先进的多语言语言模型。我们的研究强调,对于用于生产的80亿和200亿参数范围的模型,以及用于推测性解码和研究等专门应用的 10亿参数模型,存在强烈的需求。这些模型以 Apache 2.0 许可证发布,提高了该地区先进语言技术的易用性。
Sailor2 构建在出色的多语言模型 Qwen 2.5 的基础上,并持续在 500B tokens 上进行预训练,以更好地支持 15 种语言的统一模型。这些语言包括英语、中文、缅甸语、宿务语、伊洛卡诺语、印度尼西亚语、爪哇语、高棉语、老挝语、马来语、巽他语、塔加路语、泰语、越南语和瓦瑞语。通过解决对多样化、强大且易于访问的语言模型日益增长的需求,Sailor2 旨在为 SEA 地区服务不足的群体提供开放、包容和可访问的多语言 LLM。Sailor2 模型有三种尺寸,分别为 10亿、80亿和 200亿,它们分别从 Qwen2.5 的 0.5B、7B 和 14B 基础模型扩展而来。