mannix/starling-lm-10.7b:q4_K_S

这是 Starling-LM-10.7B-beta，Nexusflow/Starling-LM-7B-beta 的深度增强版本。

此模型旨在作为原始 70 亿参数模型的直接升级使用。

我们推出了 Starling-LM-7B-beta，这是一个通过从 AI 反馈的强化学习（RLAIF）训练的开源大型语言模型（LLM）。Starling-LM-7B-beta 使用 Openchat-3.5-0106 以及我们新的奖励模型 Nexusflow/Starling-RM-34B 和策略优化方法人类偏好调整语言模型（PPO）进行训练。借助排名数据集，berkeley-nest/Nectar 的力量，升级的奖励模型 Starling-RM-34B 以及新的奖励训练和策略调整管道，Starling-LM-7B-beta 以 GPT-4 为评委在 MT Bench 上取得了 8.12 的改进分数。

重要：在罕见情况下，模型输出可能非常冗长。请考虑将温度设置为 0，以减少这种情况的发生。默认温度设置为 0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF

mannix / starling-lm-10.7b

Starling-LM-10.7B-beta，一个由AI反馈强化学习（RLAIF）训练的开源大型语言模型（LLM）

阅读说明