自述文件
Starling-7B是一个开放(非商业)大型语言模型(LLM),通过AI反馈的强化学习进行训练。(RLAIF)
该模型利用了我们新的GPT-4标记排名数据集Nectar,以及我们新的奖励训练和策略调整管道。Starling-7B-alpha在MT Bench中获得了8.09分(使用GPT-4作为裁判),在MT-Bench上的表现优于迄今为止的所有模型,除了OpenAI的GPT-4和GPT-4 Turbo。
*基于MT Bench评估,使用GPT-4评分。 需要进一步的人工评估。
作者:Banghua Zhu,Evan Frick,Tianhao Wu,Hanlin Zhu和Jiantao Jiao。
如有疑问,请联系Banghua Zhu (banghua@berkeley.edu)。