最新
6.1GB q4_0 最新
6.1GB 109 Pulls 更新时间 4 个月前
更新于4个月前
4个月前
09a2587fc91e · 11GB
这是 Starling-LM-10.7B-beta,是 Nexusflow/Starling-LM-7B-beta 的深度升维版本。
此模型旨在作为原 70 亿参数模型的直接升级包使用。
我们引入 Starling-LM-7B-beta,这是一种用于人工智能反馈强化学习(RLAIF)的开源大型语言模型(LLM)。Starling-LM-7B-beta 使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和基于人类偏好微调语言模型的策略优化方法 Fine-Tuning Language Models(PPO)从 Openchat-3.5-0106 中训练。利用排名数据集,berkeley-nest/Nectar,升级的奖励模型 Starling-RM-34B 和新的奖励培训和策略调整流程,Starling-LM-7B-beta 在使用 GPT-4 作为评分者的 MT Bench 中获得了 8.12 的改进得分。
重要:在极少数情况下,模型输出可能非常冗长。请考虑将温度设置为 0 以减少这种情况的发生。默认温度设置为 0.1
@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF