starling-lm:7b-alpha-q3_K_L - Ollama 框架

starling-lm

Starling是一个大型语言模型，通过AI反馈的强化学习进行训练，专注于提高聊天机器人的帮助性。

7b

81.3K 拉取次数更新于 11个月前

11个月前更新

11个月前

e1bcab03fa99 · 3.8GB

{ "stop": [ "<|endoftext|>", "<|end_of_turn|>", "Human:", "Assis

{{ .System }}<|end_of_turn|>GPT4 Correct User: {{ .Prompt}}<|end_of_turn|>GPT4 Correct Assistant:

自述文件

Starling-7B是一个开放（非商业）大型语言模型（LLM），通过AI反馈的强化学习进行训练。（RLAIF）

该模型利用了我们新的GPT-4标记排名数据集Nectar，以及我们新的奖励训练和策略调整管道。Starling-7B-alpha在MT Bench中获得了8.09分（使用GPT-4作为裁判），在MT-Bench上的表现优于迄今为止的所有模型，除了OpenAI的GPT-4和GPT-4 Turbo。

*基于MT Bench评估，使用GPT-4评分。需要进一步的人工评估。

作者：Banghua Zhu，Evan Frick，Tianhao Wu，Hanlin Zhu和Jiantao Jiao。

如有疑问，请联系Banghua Zhu (banghua@berkeley.edu)。

参考

Starling-7B：使用RLAIF提高LLM的帮助性和无害性