7 拉取 更新于 5 周前
更新于 5 周前
5 周前
6881e192f13f · 30GB
模型
架构llama
·
参数15.0B
·
量化F16
30GB
模板
{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|> {{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|> {{ .Response }}<|eot_id|>
254B
参数
{"num_keep":24,"stop":["<|start_header_id|>","<|end_header_id|>","<|eot_id|>"]}
110B
说明
L3-Aethora-15B v2

主讲人
创作者: ZeusLabs
数据集: Theskullery/Aether-Lite-V1.8.1
训练: 4 x A100 GPU,训练17.5小时,使用125k样本
赞助: Garg (@g4rg)
关于L3-Aethora-15B v2
L3 = Llama3 L3-Aethora-15B v2是基于Llama 3架构的高级语言模型。它采用最先进的训练技术和精心挑选的数据集,以提高在各种任务上的表现。
(感谢大家的关注!该模型在所有格式的下载量已超过150k!)
量化
- @Mradermacher: L3-Aethora-15B-V2-GGUF && L3-Aethora-15B-V2-Imatrix-GGUF
- @Bullerwins: L3-Aethora-15B-V2-GGUF-Only
- @Bartowski: L3-Aethora-15B-V2-GGUF-&-Imatrix-&-F16
- @Duyntnet: L3-Aethora-15B-V2-GGUF-&-Imatrix
- @MZeroWw: L3-Aethora-15B-V2-GGUF-f16
- @Bullerwins: L3-Aethora-15B-V2-EXL2
GGUF-Mix
GGUF-F16: (f16.q6和f16.q5比q8更小,性能与纯f16相当)
EXL2
训练过程
- 基础模型:elinas/Llama-3-15B-Instruct-zeroed
- 训练时间:4 x A100 GPU上训练17.5小时
- 训练方法:LoRA(低秩适应)
- 轮次:4
- 精度:BF16
- 序列长度:8192个令牌
模型功能
L3-Aethora-15B v2 的目标是扩展在不同任务范围内的熟练度,专注于创意写作。
- 创意写作和故事讲述
- 生成引人入胜的叙述、诗歌和创意内容。
- 适应各种文体和语气。
- 协助情节发展和角色创建。
- 一般智能
- 在医学主题和科学概念上进行详细讨论。
- 解释复杂的科学现象。
- 协助文献综述和假说生成。
- 教学和教育内容
- 创建全面的教程和操作指南。
- 以清晰和适当的深度解释复杂主题。
- 为各种技能水平生成教育材料。
- 推理和解决问题
- 分析复杂场景,提供逻辑解决方案。
- 在各个领域进行逐步问题求解。
- 在挑战性问题上提供多个观点。
- 情境理解和适应性
- 在扩展交互中保持一致,情境感知的对话。
- 根据用户的偏好和需求调整沟通风格。
- 以适当的深度和敏感性处理细微的问题。
数据集创建过程
用于训练 L3-Aethora-15B v2 的 Aether-Lite-V1.8.1 数据集经历了一个严格创建和精选的过程。
- 数据收集:从 12 个高质量的数据集中汇集,包括
- jondurbin/airoboros-3.2
- jtatman/medical-sci-instruct-100k-sharegpt
- Doctor-Shotgun/no-robots-sharegpt
- QuietImpostor/Sao10K-Claude-3-Opus-Instruct-15K-ShareGPT
- TheSkullery/WizardLM_evol_instruct_v2_Filtered_Fuzzy_Dedup_ShareGPT
- TheSkullery/Gryphe-Opus-WritingPrompts-merged
- Alignment-Lab-AI/RPGuild-sharegpt-filtered
- 及其他,提供了丰富的指导、创意写作和专业知识混合。
- 数据预处理
- 语言检测:使用 FastText 语言模型确保英语内容。
- 文本净化:清洁和归一化文本,移除或替换有问题的字符。
- 短语过滤:移除特定的不需要的短语和内容类型。
- 去重
- 实现了具有 95% 相似度阈值的先进模糊去重。
- 利用文本嵌入和余弦相似度计算进行高效的比较。
- 移除了 16,250 个重复条目,确保数据集的唯一性。
- 数据平衡
- 来自每个来源数据集的样本进行了仔细抽样,以保持多样性。
- 实现了数据打乱,以确保样本的随机分布。
最终数据集包含 125,119 个高质量、多样化的样本,在创意、实践知识和智力深度之间达到了平衡。
所使用的完整数据集已公布并可供所有人使用(见展示部分),任何关于扩大数据集的想法或建议都始终受到欢迎。
开放的 LLM 排行榜评估结果
详细结果可在此处找到:链接
| 指标 | 值 |
|---|---|
| Avg. | 24.57 |
| IFEval (0-Shot) | 72.08 |
| BBH (3-Shot) | 28.97 |
| MATH Lvl 5 (4-Shot) | 7.33 |
| GPQA (0-shot) | 5.03 |
| MuSR (0-shot) | 6.25 |
| MMLU-PRO (5-shot) | 27.78 |