mannix / starling-lm-10.7b

我们引入 Starling-LM-7B-beta，这是一种用于人工智能反馈强化学习（RLAIF）的开源大型语言模型（LLM）。Starling-LM-7B-beta 使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和基于人类偏好微调语言模型的策略优化方法 Fine-Tuning Language Models（PPO）从 Openchat-3.5-0106 中训练。利用排名数据集，berkeley-nest/Nectar，升级的奖励模型 Starling-RM-34B 和新的奖励培训和策略调整流程，Starling-LM-7B-beta 在使用 GPT-4 作为评分者的 MT Bench 中获得了 8.12 的改进得分。

重要：在极少数情况下，模型输出可能非常冗长。请考虑将温度设置为 0 以减少这种情况的发生。默认温度设置为 0.1