mannix/starling-lm-10.7b:q3_K_L

这是 Starling-LM-10.7B-beta，是 Nexusflow/Starling-LM-7B-beta 的深度升级版。

此模型旨在作为原始70亿参数模型的简单升级而使用。

我们引入了 Starling-LM-7B-beta，这是一个通过来自AI反馈的强化学习（RLAIF）训练的开源大型语言模型（LLM）。Starling-LM-7B-beta 是通过 Openchat-3.5-0106 与我们新的奖励模型 Nexusflow/Starling-RM-34B 和策略优化方法“从人类偏好微调语言模型”（PPO）训练的。借助排名数据集的力量，berkeley-nest/Nectar，升级后的奖励模型 Starling-RM-34B 和新的奖励训练和政策调整管道，Starling-LM-7B-beta 在 GPT-4 作为评委的情况下，在翻译基准测试中得分有所提升，达到 8.12。

重要：在极少数情况下，模型输出可能较为详细。请考虑将温度设置为 0，以减少这种情况的发生。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF

mannix / starling-lm-10.7b

Starling-LM-10.7B-beta，一个通过从AI反馈增强学习（RLAIF）训练的开源大型语言模型（LLM）

README