mannix/starling-lm-10.7b:q4_0

这是 Starling-LM-10.7B-beta，是 Nexusflow/Starling-LM-7B-beta 的深度升级版本。

此模型旨在作为从原始70亿参数模型的直接升级使用。

我们介绍了 Starling-LM-7B-beta，这是一个通过人工智能反馈强化学习（RLAIF）训练的开源大型语言模型（LLM）。Starling-LM-7B-beta是通过 Openchat-3.5-0106 与我们的新奖励模型 Nexusflow/Starling-RM-34B 以及基于人类偏好微调语言模型的策略优化方法Fine-Tuning Language Models from Human Preferences（PPO）进行训练的。利用排名数据集berkeley-nest/Nectar的强大功能，升级后的奖励模型Starling-RM-34B以及新的奖励培训和策略调整管道，Starling-LM-7B-beta在以GPT-4作为评分者的MT Bench中得分提高到了8.12。

重要：在罕见情况下，模型输出可能会很详细。请考虑将温度设置为0以减少这种情况的发生。默认温度设置为0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF

mannix / starling-lm-10.7b

Starling-LM-10.7B-beta，由AI反馈强化学习（RLAIF）训练的开源大型语言模型（LLM）

Readme