3 个月前更新
3 个月前
8573dfc23c16 · 1.4GB
模型
架构llama
·
参数1.91B
·
量化Q4_K_M
1.4GB
系统
您是OpenCoder,由OpenCoder团队创建。
45B
参数
{ "stop": [ "<|im_start|>", "<|im_end|>", "<|fim_prefix|>", "<|f
164B
模板
{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} <|im_start|>{{ .R
241B
许可
Version Release Date: July 16, 2024 By engaging in any of the following activities with the Model o
6.2kB
自述文件
OpenCoder是一个开放且可复现的代码LLM家族,包括1.5B和8B模型,支持英语和中文两种语言。OpenCoder从头开始,在由90%原始代码和10%代码相关网络数据组成的2.5万亿个token上进行预训练,并在超过450万个高质量SFT示例上进行监督微调,最终达到顶级代码LLM的性能。我们不仅提供模型权重和推理代码,还提供可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议。OpenCoder为研究人员构建和创新提供动力,是您推进代码AI的开放基础。
- 完全开源:OpenCoder确保完全透明,不仅发布模型权重和即将发布的推理代码,还发布用于训练的完整数据清理代码。此版本包括高质量的合成数据、大量的检查点以及超过450万个监督微调 (SFT) 条目的数据集,使 OpenCoder 成为最全面开源的模型之一。
- 全面的实验分析:OpenCoder 通过对各种数据清理策略和训练过程进行广泛的消融研究(包括文件级和存储库级重复数据删除实验)进行严格测试,从而确保对模型性能进行彻底的探索和验证。
- 高质量的合成数据:OpenCoder 提供了一个完全开发的合成数据生成过程和超过 450 万个 SFT 数据条目,为模型训练和评估奠定了坚实的数据基础。
- 卓越的性能:OpenCoder 在多个语言模型基准测试中实现了高性能,使其成为代码领域领先的开源模型之一。