mannix/starling-lm-10.7b:latest

这是Starling-LM-10.7B-beta，是Nexusflow/Starling-LM-7B-beta深度提升版。

此模型旨在作为原始70亿参数模型的直接升级。

我们推出了Starling-LM-7B-beta，这是一个基于人工智能反馈（RLAIF）强化学习训练的开源大型语言模型（LLM）。Starling-LM-7B-beta是用我们的新奖励模型Nexusflow/Starling-RM-34B和政策优化方法微调语言模型从人类偏好（PPO）从Openchat-3.5-0106训练的。借助排名数据集，berkeley-nest/Nectar，升级后的奖励模型，Starling-RM-34B，和新的奖励训练和政策调整流程，Starling-LM-7B-beta以GPT-4作为评委，在MT Bench中获得了8.12的改进分数。

重要提示：模型输出在罕见情况下可能很冗长。请考虑将温度设置为0，以降低这种情况的发生。默认温度设置为0.1

@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF

mannix / starling-lm-10.7b

Starling-LM-10.7B-beta，一个由强化学习从AI反馈（RLAIF）训练的开源大型语言模型（LLM）

说明