最新
6.1GB q4_0 最新
6.1GB 109次提取 4个月前更新
更新于4个月前
4个月前
af64ffc751ac · 4.7GB
这是 Starling-LM-10.7B-beta,Nexusflow/Starling-LM-7B-beta 的深度升级版本。
此模型旨在作为原始 70 亿参数模型的直接升级替代品使用。
我们引入 Starling-LM-7B-beta,这是一种通过强化学习从人类反馈(RLAIF)训练的开源大型语言模型 (LLM)。Starling-LM-7B-beta 是使用我们的新奖励模型 Nexusflow/Starling-RM-34B 和基于人类偏好调整的语言模型(PPO)策略优化方法从 Openchat-3.5-0106 进行训练。借助排名数据集 berkeley-nest/Nectar 的力量,升级后的奖励模型 Starling-RM-34B 以及新的奖励训练和政策调整流程,Starling-LM-7B-beta 在使用 GPT-4 作为评判者的 MT Bench 上取得了 8.12 的改进分数。
重要:模型输出在罕见情况下可能会很冗长。请考虑设置温度 = 0 以减少这种情况的发生。默认温度设置为 0.1
@HuggingFace https://hugging-face.cn/bartowski/Starling-LM-10.7B-beta-GGUF