OpenCoder 是一个开放且可复现的代码 LLM 系列,包括 1.5B 和 8B 模型,支持英语和中文的聊天。

1.5b 8b

26.1K 3 个月前

自述文件

OpenCoder 是一个开放且可复现的代码 LLM 系列,包括 1.5B 和 8B 模型,支持英语和中文两种语言。OpenCoder 从零开始,在包含 90% 原始代码和 10% 代码相关网络数据的 2.5 万亿个 tokens 上进行预训练,并在超过 450 万个高质量 SFT 示例上进行监督微调,最终达到顶级代码 LLM 的性能。我们不仅提供模型权重和推理代码,还提供可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议。OpenCoder 为研究人员构建和创新提供动力,是您推进代码 AI 的开放基础。

  • 完全开源: OpenCoder 确保完全透明,不仅发布模型权重和即将发布的推理代码,还发布完整的数据清理代码用于训练。此版本包括高质量的合成数据、大量的检查点以及超过 450 万个监督微调 (SFT) 条目的数据集,使 OpenCoder 成为最全面开源的模型之一。
  • 全面的实验分析: OpenCoder 通过对各种数据清理策略和训练过程进行广泛的消融研究进行严格测试,包括文件级和存储库级重复数据删除实验,确保对模型性能进行彻底的探索和验证。
  • 高质量的合成数据: OpenCoder 提供了一个完全开发的合成数据生成过程和超过 450 万个 SFT 数据条目,为模型训练和评估建立了一个强大的数据基础。
  • 卓越的性能: OpenCoder 在多个语言模型基准测试中实现了高性能,使其在代码的领先开源模型中占据一席之地。

参考

GitHub

论文

Hugging Face