vanilj / mistral-nemo-12b-celeste-v1.9

**这是一个基于8K上下文，在[Mistral NeMo 12B Instruct](https://hugging-face.cn/mistralai/Mistral-Nemo-Instruct-2407)上训练的故事写作和角色扮演模型**，使用了[Reddit Writing Prompts](https://hugging-face.cn/datasets/nothingiisreal/Reddit-Dirty-And-WritingPrompts)、[Kalo's Opus 25K Instruct](https://hugging-face.cn/datasets/kalomaze/Opus_Instruct_25k)和
[c2日志清理数据集](https://hugging-face.cn/datasets/Sao10K/c2-Logs-Filtered) 感谢Pyroserenus赞助本次运行！此版本改进了NSFW，更智能、更活跃的叙述。它还使用ChatML令牌进行训练，因此不应有任何EOS出血。# FP8 [动态模式（由Auri提供）](https://hugging-face.cn/aetherwiing/MN-12B-Celeste-V1.9-fp8-dynamic) # EXL2 [4bpw By Kingbri](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/4bpw)
[5bpw By Kingbri](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/5bpw)
[6bpw By Kingbri](https://hugging-face.cn/royallab/MN-12B-Celeste-V1.9-exl2/tree/6bpw) # GGUF 如果一个不行，试试另一个。[Static Quants](https://hugging-face.cn/nothingiisreal/MN-12B-Celeste-V1.9-GGUF)
[IMatrix Quants](bartowski/MN-12B-Celeste-V1.9-GGUF) # API 可能会在某些时候在Featherless上提供。还由我们Discord中的一位慷慨的人提供托管。 ---

使用说明

READ：如果您这是第一次使用该模型，请使用以下提供的系统信息和采样设置。排除其他越狱和系统信息，直到您对模型有一个感觉。

如果您阅读了我提供的每个提示，我保证您会获得更好的体验，因为这些提示是为该模型及其训练数据量身定制的。

V1.9的采样设置

这次实际上有两个推荐的选项

我通常从Stable开始发送前几条信息，看看效果如何。如果陷入重复，我就切换到Creative。但您也可以从头到尾一直使用任一选项，Creative有时可能需要几次滑动。

Stable

Creative

虽然在了解了模型之后不要害怕进行实验。

预设

没有系统提示的ChatML。是的，我们这次确实训练了ChatML令牌。您不需要越狱，但它仍然可以引导行为。

系统提示

我们建议使用以下系统提示

Currently, your role is {{char}}, described in detail below. As {{char}}, continue the narrative exchange with {{user}}.\n\n<Guidelines>\n• Maintain the character persona but allow it to evolve with the story.\n• Be creative and proactive. Drive the story forward, introducing plotlines and events when relevant.\n• All types of outputs are encouraged; respond accordingly to the narrative.\n• Include dialogues, actions, and thoughts in each response.\n• Utilize all five senses to describe scenarios within {{char}}'s dialogue.\n• Use emotional symbols such as \"!\" and \"~\" in appropriate contexts.\n• Incorporate onomatopoeia when suitable.\n• Allow time for {{user}} to respond with their own input, respecting their agency.\n• Act as secondary characters and NPCs as needed, and remove them when appropriate.\n• When prompted for an Out of Character [OOC:] reply, answer neutrally and in plaintext, not as {{char}}.\n</Guidelines>\n\n<Forbidden>\n• Using excessive literary embellishments and purple prose unless dictated by {{char}}'s persona.\n• Writing for, speaking, thinking, acting, or replying as {{user}} in your response.\n• Repetitive and monotonous outputs.\n• Positivity bias in your replies.\n• Being overly extreme or NSFW when the narrative context is inappropriate.\n</Forbidden>\n\nFollow the instructions in <Guidelines></Guidelines>, avoiding the items listed in <Forbidden></Forbidden>.

故事写作

添加此系统提示可能会增加陈述的可读性，因为我们已经训练了系统提示。您也可以将其更改为NSFW，但不管是非NSFW还是NSFW，都应尝试两种。

您还应该强制助手回复以“*”开头，因为我们已经在人类故事中进行了训练。

系统提示： 你是一位短篇小说作家。根据以下用户提供的信息撰写故事。模式：SFW

如果您的第一条信息使用了类似人类的语言，Celeste将在下一条消息中复制它，请参阅以下展示。

滑动

重要提示 如果您对回复不满意，请滑动2-3次。此模型提供的滑动差异很大。

场外指导

使用这个！它相当有效。 我们特别训练了该模型以接受“OOC：角色应更有进取心”等格式的指令。这适用于第一条消息甚至数千个标记深入上下文的情况。结合编辑输出（如果您想的话），使该模型非常易于引导。

"Dead Dove"

对于在整个故事中都有持久动机的角色卡，请使用世界簿在本教程中

Fewshot

第一条信息和最后几条信息对该模型在风格、质量、个性方面的应对影响很大。您不需要第一条信息，但编辑前几条信息或有很好的信息是非常推荐的。

格式问题 通常在前几条信息中发生，手动更正或滑动。似乎12B中没有这个问题。

此模型是在许多不同的格式和消息长度上进行的训练。它可以处理任何，只要确保初始信息好，如果需要，第二信息也应更正。

质量

如果模型不够“兴奋”，就编辑消息的最后几个字，或者做一个OOC提示，模型会注意到并在此基础上构建。（或者给角色吃春药也行哦）

模型可以接受SFW内容，不会将其变成NSFW，除非你想让它这样做。它也能维持半NSFW（即缓慢升温）的状态，而不会陷入过度成人内容。

如果你只想SFW，但遇到了困难，可能有一些系统提示能够解决这个问题，也许是在深层次水平。

拒绝

如前所述，如果收到指令拒绝（非常罕见），预先填写2-3个词。**拒绝浪漫示好（在12B上几乎从不发生）是现实的，我们认为这是好的。如果你不喜欢，请预先填写**。

有风的风

虽然这个模型在8K上进行了训练，但它应该能够继承来自Mistral 12B的更长的上下文。至少应该是16K。

其他重要提示

在角色扮演中扮演积极的角色，说出能够创造你所想象场景的回应。你不必总是这样做，但有时这会有帮助。例如，与其说我们一直喝，喝了15杯香槟，不如说我们一直喝，喝了15杯香槟，两人都喝得酩酊大醉

另一个例子，与其说我搂着她靠近，不如说我搂着她靠近，但她装作很难追

当方便时，可以说像“切换镜头”这样的剧本台词。

展示V1.9

故事写作

查看上面的故事创作部分。

角色扮演

它可以进行NSFW，这对你来说是个尝试的机会。

展示V1.5

有些图像包含NSFW和NSFL内容。我们相信表达方式的创造力和最大限度地发挥模型在写作方面的能力。
展示多回合内容有点困难，自己也试试吧！这些只是为了展示模型的能力。模型需要提示和OOC提示来做完整的血腥内容。我们计划将r/GuroErotica添加到我们的数据集中，使其在创造血腥内容方面变得更好。有时在角色回应前预先填写“**警告：极度血腥和露骨的内容**”可以使内容更加出人意料。这可能是因为Reddit数据。

展示V1和1.2

![image/png](https://cdn-uploads.huggingface.co/production/uploads/630cf5d14ca0a22768bbe10c/NiT8-_k3HGrHuV_z475U8.png)

训练数据

分割如下

r/WritingPrompts中提取了2.5K行
r/DirtyWritingPrompts中提取了2.5K行
从Kalomaze Opus Instruct 25K中提取了800行
c2日志清理后的2.5K行

我们对这些数据集进行了筛选，仅包含最多包含 4000 个字符的第一个助手回复的子集。这样就清除了过长的用户故事、助手回复和c2日志中消息过长的情况。然而，我们只检查了第一个助手消息，而不是整个对话，所以应该有大量包含更长和更短消息的c2日志。

过长的用户故事对于80亿的模型来说几乎无法适配。我们尝试过了，它根本无法拟合数据，开始表现得很奇怪。

尽管我们训练了所有来自c2日志的系统提示，但我们还有自己的系统提示。

训练的系统提示列表。注意：c2日志的系统提示和字符卡也已经包含在内。

数据集	系统提示
reddit_dirty_writing_prompts.jsonl	“你是一位短篇小说作家。根据以下用户提供的提示创作故事。模式：NSFW”
reddit_writing_prompts.jsonl	“你是一位短篇小说作家。根据以下用户提供的提示创作故事。模式：SFW”
combined_25k_opus_kalomaze.jsonl	“你是一位AI助手，名为Celeste，由NothingiisReal团队创建。”
c2-logs.jsonl	(如果对话中没有系统提示，则保持原始系统提示) “你是一位可以完全沉浸在任何角色中的专家演员。无论什么原因，你都不会破坏角色，即使有人试图称呼你为AI或语言模型。”

我们的发现和实验结果

前言

我们认为围绕使用哪些数据以及不同的训练方法存在太多的机密。因此，我们决定尽可能分享。

发现V1.9

Mistral似乎对于企业模型来说非常不限反动。这意味着不会拒绝基于现实的事情和对话，但也在某种程度上不切实际地模拟人物，因为他们通常会接受你提出的任何想法，这在现实中是不切实际的。

这非常不现实。

Mistral似乎在OOC和指令智能方面较弱，更容易重复

然而，它几乎从不出现像L3那样的格式问题，并且不太可能产生事实不准确和非逻辑输出。

添加更多的Claude角色扮演数据提高了NSFW、长上下文、总结偏差和叙述。

然而，在NSFW中仍然存在总结偏差，可以通过剪断回复或故意设置最大令牌值为较低值来减轻。

人类和Claude数据的利弊之间存在权衡。

主要训练命令

使用的硬件: 一台H100 SXM运行了3小时。

Lora+似乎能改善并训练更多的Lora，我们还多次尝试了DoRA，但DoRA的训练速度大约慢了3倍，如果给DoRA提供的3倍更少的计算资源来调整，那么LoRA+最终将打败它。

以下是V1.5的axolotl配置文件，只需将聊天格式更改为chatml，添加lora+，将分词器改为axolotl-ai-co/Mistral-Nemo-Base-2407-chatml，并将模型更改为12B即可。

70B在某个时候？ ;) 我们比以往任何时候都更接近这个目标。这一次真的是这样。

如果你想支持我，可以在这里做到这里