mannix / starling-lm-10.7b

我们引入了 Starling-LM-7B-beta，这是一个通过强化学习从人工智能反馈（RLAIF）训练的开源大型语言模型（LLM）。Starling-LM-7B-beta 使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和策略优化方法微调语言模型（PPO）从 Openchat-3.5-0106 训练。利用排名数据集 berkeley-nest/Nectar 的力量，升级的奖励模型 Starling-RM-34B 和新的奖励训练和策略调整管道，Starling-LM-7B-beta 在使用 GPT-4 作为评审员的 MT Bench 中得分提高至 8.12。

重要：在极少数情况下，模型输出可能很冗长。请考虑将温度设置为 0 以减少这种情况的发生。默认温度设置为 0.1