Starling-LM-10.7B-beta,由AI反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)

109 拉取 更新于4个月前

README

这是 Starling-LM-10.7B-beta,Nexusflow/Starling-LM-7B-beta 的深度扩展版。

本模型旨在作为从原始 70 亿参数模型升级的即插即用版本。

我们引入了 Starling-LM-7B-beta,这是一个通过从 AI 反馈的强化学习(RLAIF)训练的开放大型语言模型(LLM)。Starling-LM-7B-beta 使用我们新的奖励模型 Nexusflow/Starling-RM-34B 和策略优化方法从人类偏好调整语言模型(PPO)训练自 Openchat-3.5-0106。借助排名数据集 berkeley-nest/Nectar 的力量,升级的奖励模型 Starling-RM-34B 以及新的奖励培训和策略调整管道,以 GPT-4 为评分者,Starling-LM-7B-beta 在 MT Bench 中获得了 8.12 的改进分数。

重要:在极少数情况下,模型输出可能会很冗长。请考虑将温度设置为 0 以减少这种情况发生的次数。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF