Starling-LM-10.7B-beta,一个通过强化学习从AI反馈(RLAIF)训练的开放大型语言模型(LLM)

109 Pulls 更新于4个月前

README

这是 Starling-LM-10.7B-beta,是 Nexusflow/Starling-LM-7B-beta 的深度扩展版本。

此模型旨在作为原 70 亿参数模型的即插即用升级使用。

我们介绍了 Starling-LM-7B-beta,这是一个由 AI 反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)。Starling-LM-7B-beta 使用 Openchat-3.5-0106 和我们新的奖励模型 Nexusflow/Starling-RM-34B 以及基于人类偏好的语言模型微调策略优化方法 PPO 进行训练。利用排名数据集 berkeley-nest/Nectar 的力量,升级的奖励模型 Starling-RM-34B 和新的奖励培训和策略调整管道,Starling-LM-7B-beta 在使用 GPT-4 作为评判员时在 MT Bench 中得分提高了 8.12。

重要:在罕见情况下,模型输出可能非常冗长。请考虑将温度设置为 0 以降低这种情况的发生。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF