Starling-LM-10.7B-beta,一个由 RL-AIF(强化学习从AI反馈)训练的开源大型语言模型(LLM)

109 拉取 更新于4个月前

README

这是Starling-LM-10.7B-beta,是Nexusflow/Starling-LM-7B-beta的深度升级版。

此模型旨在作为原始7000万参数模型的直接升级使用。

我们介绍了Starling-LM-7B-beta,这是一个由互联网反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)。Starling-LM-7B-beta使用我们的新奖励模型Nexusflow/Starling-RM-34B和策略优化方法从人类偏好微调语言模型(PPO)进行训练。利用排名数据集的强大功能,berkeley-nest/Nectar,升级的奖励模型Starling-RM-34B以及新的奖励训练和政策调整流水线,Starling-LM-7B-beta在MT Bench中使用GPT-4作为评委的情况下得分提高了8.12。

重要:在极少数情况下,模型的输出可能会很冗长。请考虑将温度设置为0以减少这种情况的出现。默认温度设置为0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF