Starling-LM-10.7B-beta,一个通过人工智能反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)
更新于4个月前
4个月前
66e5e3952b4c · 7.4GB
模型
架构llama
·
参数10.7B
·
量化Q5_K_S
7.4GB
模版
"{{ if .System }}GPT4 正确系统: {{ .System }}<|end_of_turn|>{{ end }}{{ if .Prompt }}GPT4 正确用户: {{ .Prompt }}<|end_of_turn|>{{ end }}GPT4 正确助手: {{ .Response }}<|end_of_turn|>"
202B
参数
{"stop":["<|endoftext|>","<|end_of_turn|>","Human:","Assistant:"],"temperature":0.1}
105B
自述文件
这是 Starling-LM-10.7B-beta,是 Nexusflow/Starling-LM-7B-beta 的深度升级版。
本模型旨在作为原始7亿参数模型的直接升级替换使用。
我们推出了 Starling-LM-7B-beta,这是一个通过从人工智能反馈(RLAIF)的强化学习训练的开源大型语言模型(LLM)。Starling-LM-7B-beta 使用 Openchat-3.5-0106 和我们的新奖励模型 Nexusflow/Starling-RM-34B 以及策略优化方法精细调整语言模型以符合人类偏好(PPO)进行训练。利用排名数据集 berkeley-nest/Nectar 的力量,升级的奖励模型 Starling-RM-34B 和新的奖励训练及策略调整流水线,Starling-LM-7B-beta 在使用 GPT-4 作为评判标准的情况下在 MT Bench 上取得了8.12的改进分数。
重要:在极少数情况下,模型输出可能会很冗长。请考虑将温度设置为0以减少这种情况的发生。默认温度设置为0.1
@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF