mannix/starling-lm-10.7b:q2_K

这是 Starling-LM-10.7B-beta，Nexusflow/Starling-LM-7B-beta 的深度扩展版本。

此模型旨在作为原始 70 亿参数模型的直接升级使用。

我们介绍了 Starling-LM-7B-beta，这是一个通过人工智能反馈（RLAIF）强化学习训练的开源大型语言模型（LLM）。Starling-LM-7B-beta 是使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和基于人类偏好的语言模型微调策略优化方法（PPO）在 Openchat-3.5-0106 上训练的。利用排名数据集（berkeley-nest/Nectar）的力量，升级后的奖励模型 Starling-RM-34B 以及新的奖励训练和策略调优管道，Starling-LM-7B-beta 在 GPT-4 作为评委的情况下在 MT Bench 上获得了 8.12 的改进分数。

重要：在极少数情况下，模型输出可能会非常详细。请考虑将温度设置为 0 以减少这种情况的发生。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF

mannix / starling-lm-10.7b

Starling-LM-10.7B-beta，这是一个由RLAIF（强化学习从AI反馈）训练的开源大型语言模型（LLM）

Readme