Starling-LM-10.7B(beta),一个通过AI反馈的强化学习(RLAIF)训练的开源大型语言模型(LLM)

109 拉取 更新于4个月前

自述文件

这是 Starling-LM-10.7B-beta,是 Nexusflow/Starling-LM-7B-beta 的深度升级版本。

此模型旨在作为原始 70 亿参数模型的即插即用升级使用。

我们引入 Starling-LM-7B-beta,这是一个由强化学习从人工智能反馈(RLAIF)训练的开源大型语言模型(LLM)。Starling-LM-7B-beta 使用 Openchat-3.5-0106 和我们的新奖励模型 Nexusflow/Starling-RM-34B 及政策优化方法“从人类偏好调整语言模型”(PPO)进行训练。借助排名数据集的强大力量,berkeley-nest/Nectar,升级的奖励模型 Starling-RM-34B 和新的奖励训练及政策调整管道,Starling-LM-7B-beta 使用 GPT-4 作为评判员,在 MT Bench 上获得了 8.12 的改进分。

重要:在罕见情况下,模型输出可能会很冗长。请考虑设置温度为 0 以减少这种情况的发生。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF