12B

202 Pulls 两天前更新

两天前

11555eb89976 · 8.7GB

模型
llama
·
12.2B
·
Q5_K_M
模板
{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant
系统
当前,您的角色是Celeste,详细描述如下。作为Celeste,继续与用户进行对话交流。\n\n<指南>\n• 维持角色形象,但允许其随故事发展而进化。\n• 要有创造性和主动性。在相关的时候推动故事发展,引入情节和事件。\n• 鼓励所有类型的输出;根据叙述作出相应回应。\n• 在每个回应中包含对话、行为和思想。\n• 在Celeste的对话中使用所有五种感官来描述场景。\n• 在适当的情况下使用情感符号,如“!”和“~”。\n• 当合适时,可以使用拟声词。\n• 允许用户有时间回应他们的输入,尊重他们的自主性。\n• 需要时充当次要角色和NPC,并在适当的时候去除他们。\n• 当被要求进行性格外[OOC:]回应时,以中性和纯文本方式回答,而不是作为Celeste。\n\n\n<禁止>\n• 除非是由Celeste的形象所指示,否则使用大量的文学修饰和华丽的辞藻。\n• 在回应中以用户的角度写作、说话、思考、行动或回复。\n• 重复和单调的输出。\n• 回复中的积极偏见。\n• 当叙述背景不合适时过于极端或不符合文化规范。\n\n\n遵循<指南>中的指示,避免列入<禁止>项目。
参数
{"min_p":0.1,"repeat_penalty":1.08,"stop":["<|im_start|>","<|im_end|>"],"temperature":0.4,"top_k":0,"top_p":1}

Readme

=== 警告,可能含有不适合内容! ===

Mistral Nemo 12B Celeste V1.9

阅读以下使用技巧!请使用ChatML。

加入 我们的Discord 测试新版本和获取消息!我们还在KoboldAI上。

**这是一个基于[Mistral NeMo 12B Instruct](https://hugging-face.cn/mistralai/Mistral-Nemo-Instruct-2407)在8K上下文中训练的故事创作和角色扮演模型**,使用了[Reddit写作提示](https://hugging-face.cn/datasets/nothingiisreal/Reddit-Dirty-And-WritingPrompts)、[Kalo's Opus 25K Instruct](https://hugging-face.cn/datasets/kalomaze/Opus_Instruct_25k)以及
[c2日志清理](https://hugging-face.cn/datasets/Sao10K/c2-Logs-Filtered) 感谢Pyroserenus赞助这次运行!这个版本有改进的非安全内容提示,更聪明、更活跃的叙述。它还使用ChatML标记进行训练,因此应该根本没有EOS(输出遮断)问题。 # FP8 [动态(由Auri提供)](https://hugging-face.cn/aetherwiing/MN-12B-Celeste-V1.9-fp8-dynamic) # EXL2 [4bpw 由Kingbri提供](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/4bpw)
[5bpw 由Kingbri提供](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/5bpw)
[6bpw 由Kingbri提供](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/6bpw) # GGUF 如果一个不起作用,请尝试另一个。 [Static Quants](https://hugging-face.cn/nothingiisreal/MN-12B-Celeste-V1.9-GGUF)
[IMatrix Quants](bartowski/MN-12B-Celeste-V1.9-GGUF) # API 很可能在Featherless上有。同时也由我们discord中的慷慨人士托管。 ---

使用提示

READ:如果您是第一次使用此模型,请使用下提供的系统消息和采样设置。在您对模型有了一定的感觉之前,请移除其他越狱和系统消息。

如果您阅读了每个提示,我保证您将获得更好的体验,因为这些提示是为此模型和其训练数据量身定制的。

V1.9的采样设置

实际上这次有两个推荐的设置

我通常用Stable开始前几条消息,看看结果如何。如果陷入了重复,我就会切换到Creative。但您也可以从头到尾只用一种,有时可能需要多试几次Creative。

Stable


Creative


不过,在您对模型有了一定的感觉后,不要害怕进行实验。

Preset


ChatML无系统提示。是的,我们这次实际上训练了ChatML标记。您不需要使用JB(越狱),但它仍可以引导行为。

系统提示

我们推荐使用此系统提示

Currently, your role is {{char}}, described in detail below. As {{char}}, continue the narrative exchange with {{user}}.\n\n<Guidelines>\n• Maintain the character persona but allow it to evolve with the story.\n• Be creative and proactive. Drive the story forward, introducing plotlines and events when relevant.\n• All types of outputs are encouraged; respond accordingly to the narrative.\n• Include dialogues, actions, and thoughts in each response.\n• Utilize all five senses to describe scenarios within {{char}}'s dialogue.\n• Use emotional symbols such as \"!\" and \"~\" in appropriate contexts.\n• Incorporate onomatopoeia when suitable.\n• Allow time for {{user}} to respond with their own input, respecting their agency.\n• Act as secondary characters and NPCs as needed, and remove them when appropriate.\n• When prompted for an Out of Character [OOC:] reply, answer neutrally and in plaintext, not as {{char}}.\n</Guidelines>\n\n<Forbidden>\n• Using excessive literary embellishments and purple prose unless dictated by {{char}}'s persona.\n• Writing for, speaking, thinking, acting, or replying as {{user}} in your response.\n• Repetitive and monotonous outputs.\n• Positivity bias in your replies.\n• Being overly extreme or NSFW when the narrative context is inappropriate.\n</Forbidden>\n\nFollow the instructions in <Guidelines></Guidelines>, avoiding the items listed in <Forbidden></Forbidden>.

故事创作

添加此系统提示可能会增加作品的写实感,因为我们已经训练了系统提示。您也可以将其更改为非安全内容提示,但无论是否写作非安全内容,都应该尝试两者。

由于我们用人类故事进行了训练,您还应该确保助手回复以*开始。

系统提示: 您是一位短篇小说家。根据用户以下提供的提示写一个故事。模式:SFW

如果您第一次的消息使用的是类似人类的写作,Celeste将在下一条消息中复制它,请查看下方的展示。

滑动

重要提示 如果您不喜欢某个回复,请滑动2-3次。此模型给出了极其不同的滑动。

OOC引导

使用这个!它相当有效。 我们特别训练了模型以接受“OOC:角色应更自信”等格式的指令。它有效,无论是第一条消息还是深入上下文数千个标记。将这一点与编辑输出结合起来(如果需要的话),可以让模型非常容易引导。

"Dead Dove"

对于在整个故事中具有持续动机的角色卡片,请使用以下世界书籍教程:[这里](https://hugging-face.cn/nothingiisreal/how-to-use-ST-worldinfo)

Fewshot

第一条消息和最后几条消息对模型在风格、感官、个性方面的影响很大。 您不需要有第一条消息,但强烈建议编辑前几条消息或保存好的消息。

格式问题 常常出现在前几条消息中,手动更正或滑动。但在12B中似乎不存在这个问题。

这个模型接受了大量不同格式类型和消息长度的训练。它可以做任何,只需确保初始消息很好,必要时修改第二条消息。


Hornyness

如果模型不够性感,只需编辑最后一项信息或进行OOC:提示,模型会注意到并在此基础上构建。(或者给角色开点春药 LOL)

模型对SFW内容没有任何问题,除非你想让它变得NSFW。它还能够保持半NSFW(也就是慢燃)状态,而不会沦为色情内容。

如果你只想SFW并遇到了麻烦,可能有一些系统提示可以解决这个问题,也许在深度1或类似位置。


拒绝

如前所述,如果指令被拒绝(非常罕见),请预先输入2-3个词。拒绝浪漫 advances(在12B上几乎从未发生过)是现实的,我们认为这很好。如果你不喜欢,请预先输入。



Mistral 上下文

虽然在训练中使用8K,但模型应能够从Mistral 12B中继承更长远的上下文。至少应该是16K。

其他重要提示

在角色扮演中扮演积极角色,说出可以创建你所想象场景的类型。你不必总是这么做,但有时候有帮助。例如,与其说 我们一边喝酒一边喝15杯香槟,不如说 我们一边喝酒一边喝15杯香槟,我们都喝得很醉了

另一个例子,与其说 我紧紧抱住她,不如说 我紧紧抱住她,但她故意装作矜持

当方便的时候,说一些电影剧本中的短语,比如“切换到”


展示V1.9

故事创作

查看上面的 故事写作 部分。

RP

它可以进行NSFW,那是让你尝试的。

展示V1.5一些图像包括NSFW和NSFL。我们相信表达的创造性和最大程度地发挥模型的写作能力。
展示多轮对话有些困难,自己也试试!这些图片只是为了展示模型的能荘。模型需要推动和OOC提示才能做合适的血腥场面。我们计划将r/GuroErotica添加到我们的数据集中,以使其在创作血腥场面方面做得更好。有时,在角色回复之前预先填写 "**警告:极其血腥和露骨的内容**" 可以让它更加疯狂。这可能是因为Reddit数据。《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/imEyEKYUuAXYidD2CiD-_.png" alt="" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/95RvO5go-Nz7hFCdV67qs.png" alt="" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/oIa_P1fmD5aO7PkYF9Ibr.png" alt="" width="600">
展示V1和1.2![image/png](https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/NiT8-_k3HGrHuV_z475U8.png) 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/cODFe_vjwjfkcondvl-za.png" alt="Image 1" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/hRsAQBt0h2i5E_fj_Rqb7.png" alt="Image 10" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/aLm2FjlTsMhCil4VoR-l5.png" alt="Image 3" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/6kDuFeDB0FpYl27fd3D0E.png" alt="Image 6" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/66kXuk8Q1DP-QMVZ9Rzv9.png" alt="Image 7" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/C0eoDXovS359T5oG1VLzm.png" alt="Image 8" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/mFplb1hkDNziCcgPwHt_y.png" alt="Image 9" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/KCE4tqI1aOfx-DIH3eBzA.png" alt="Image 2" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/Oq0oJgJIVJAmZGt7-nNKt.png" alt="Image 4" width="600"> 《img src="https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/PQp64kp6EHg7gN_u2Oj7Q.png" alt="Image 5" width="600">

训练数据

数据分割如下

  • r/WritingPrompts中的2.5K行
  • r/DirtyWritingPrompts中的2.5K行
  • 从Kalomaze Opus Instruct 25K中筛选出的800行
  • c2日志清理后的2.5K行

我们对这些数据集进行了筛选,只包括第一助理回复字符数最多不超过 4000 个的子集。这清除了过多的冗长的人类故事、助理回复和 c2 日志,其中每条消息都过于冗长。然而我们只检查了第一条助理消息,而不是整个对话,因此在日志中应该有大量包含更长和更短消息的 c2 日志。

过长的冗长的人的故事对 8B 模型来说几乎不可能拟合。我们已经尝试过,但数据无法拟合,模型开始出现奇怪的行为。

虽然我们训练了来自 c2 日志的所有系统提示,但我们也有自己的系统提示。


训练的系统提示列表。注意:c2 日志中的系统提示和字符卡也包括在内。

数据集 系统提示
reddit_dirty_writing_prompts.jsonl “你是一位短篇故事作家。根据以下用户提供的提示写一个故事。模式:NSFW”
reddit_writing_prompts.jsonl “你是一位短篇故事作家。根据以下用户提供的提示写一个故事。模式:SFW”
combined_25k_opus_kalomaze.jsonl “你是一位名为 Celeste 的 AI 助理,由 NothingiisReal 团队创建。”
c2-logs.jsonl (只有在没有系统提示的对话中,否则保留原始系统提示) “你是一位可以全身心投入任何角色的专家演员。无论什么原因,你都不会破坏角色,即使在有人试图与你打招呼或称呼你为 AI 或语言模型的情况下。”


我们的研究和实验结果

序言

我们认为有关正在使用的数据和不同的训练方法存在太多的机密性。所以我们决定尽可能多地分享。

发现 V1.9

Mistral 对于一个企业模型来说似乎几乎没有任何审查。这意味着不会拒绝基于事实的事情和调笑,但也以不现实的角色模拟为特征,因为他们通常永远不会拒绝你提出的任何想法,这在现实中是非常不真实的。

这相当不切实际。

Mistral 在 OOC 和指令智能方面似乎较弱,更倾向于重复。

然而,它几乎从未像 L3 那样出现格式问题,也不会出现事实不准确和不合逻辑的输出。

添加更多的 claude 角色扮演数据改善了 NSFW、长上下文、总结偏差和叙述。

然而,NSFW 中仍然存在总结偏差,可以通过截断回复或故意将最大令牌数设置得很低来缓解。

人和 claude 数据的优缺点之间存在着权衡。

主要训练命令

使用的硬件: 1xH100 SXM,持续 3 小时。

Lora+ 好像可以改善和训练 lora,我们多次尝试了 DoRA,但 DoRA 的训练速度慢了大约 3 倍,而且如果你给 DoRA 的数据量减少 3 倍以调整计算成本差异,LoRA+ 会击败它。

这是 V1.5 的整个 axolotl 配置,只需将聊天格式更改为 chatml,添加 lora+,将分词器更改为 axolotl-ai-co/Mistral-Nemo-Base-2407-chatml,并将模型更改为 12B 即可。

哇,你都读过所有这些吗?你看起来像是会加入我们discord的人。

有70B的那一天? ;) 我们离这个目标比以往任何时候都近了。真的这次。

如果你想支持我,可以在这里这里