Starling-LM-10.7B-beta,一个由强化学习从AI反馈(RLAIF)训练的开源大型语言模型(LLM)

109 拉取 更新于4个月前

4个月前

331244a15e85 · 6.1GB

说明

这是Starling-LM-10.7B-beta,是Nexusflow/Starling-LM-7B-beta深度提升版。

此模型旨在作为原始70亿参数模型的直接升级。

我们推出了Starling-LM-7B-beta,这是一个基于人工智能反馈(RLAIF)强化学习训练的开源大型语言模型(LLM)。Starling-LM-7B-beta是用我们的新奖励模型Nexusflow/Starling-RM-34B和政策优化方法微调语言模型从人类偏好(PPO)从Openchat-3.5-0106训练的。借助排名数据集,berkeley-nest/Nectar,升级后的奖励模型,Starling-RM-34B,和新的奖励训练和政策调整流程,Starling-LM-7B-beta以GPT-4作为评委,在MT Bench中获得了8.12的改进分数。

重要提示:模型输出在罕见情况下可能很冗长。请考虑将温度设置为0,以降低这种情况的发生。默认温度设置为0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF