最新
6.1GB q4_0 最新
6.1GB 109 拉取 更新于 4 个月前
4个月前更新
4个月前
bd087c73c668 · 7.6GB
这是 Starling-LM-10.7B-beta,是 Nexusflow/Starling-LM-7B-beta 的深度升级版本。
该模型旨在作为一个上升级方案直接替换原始的 70 亿参数模型。
我们引入了 Starling-LM-7B-beta,这是一个通过 AI 反馈强化学习(RLAIF)训练的开源大型语言模型 (LLM)。Starling-LM-7B-beta 是使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和基于人类偏好的语言模型微调策略优化方法 Fine-Tuning Language Models from Human Preferences (PPO) 从 Openchat-3.5-0106 训练的。借助排名数据集 berkeley-nest/Nectar 的力量,升级的奖励模型 Starling-RM-34B 以及新的奖励培训和策略调优流水线,Starling-LM-7B-beta 在 GPT-4 作为评判者的 MT Bench 上获得了 8.12 的改进分数。
重要:在极少数情况下,模型输出可能很冗长。请考虑将温度设置为 0 以减少这种情况的发生。默认温度设置为 0.1
@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF