7 pulls 更新于5周前
更新于5周前
5周前
6881e192f13f · 30GB
模型
架构llama
·
参数15.0B
·
量化F16
30GB
模板
{{ if .System }}<|start_header_id|>系统<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>用户<|end_header_id|> {{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>助手<|end_header_id|> {{ .Response }}<|eot_id|>
254B
参数
{"num_keep":24,"stop":["<|start_header_id|>","<|end_header_id|>","<|eot_id|>"]}
110B
说明文档
L3-Aethora-15B v2

由以下人员展出
创作者: ZeusLabs
数据集: Theskullery/Aether-Lite-V1.8.1
训练: 使用 4 x A100 进行 17.5 小时训练,处理 125k 个样本
赞助: Garg (@g4rg)
关于 L3-Aethora-15B v2
L3 = Llama3 L3-Aethora-15B v2 是基于 Llama 3 架构的高级语言模型。它采用最先进的训练技术以及精心挑选的数据集,以在广泛的任务中提升性能。
(感谢大家的兴趣!该模型已以所有格式在 150k 下载!)
量化
- @Mradermacher: L3-Aethora-15B-V2-GGUF && L3-Aethora-15B-V2-Imatrix-GGUF
- @Bullerwins: L3-Aethora-15B-V2-GGUF-Only
- @Bartowski: L3-Aethora-15B-V2-GGUF-&-Imatrix-&-F16
- @Duyntnet: L3-Aethora-15B-V2-GGUF-&-Imatrix
- @MZeroWw: L3-Aethora-15B-V2-GGUF-f16
- @Bullerwins: L3-Aethora-15B-V2-EXL2
GGUF-Mix
GGUF-F16: (既 f16.q6 也 f16.q5 比 q8 小,性能与纯 f16 相当)
EXL2
训练过程
- 基础模型: elinas/Llama-3-15B-Instruct-zeroed
- 训练时间: 在 4 x A100 GPU 上 17.5 小时
- 训练方法: LoRA (低秩调整)
- 周期: 4
- 精度: BF16
- 序列长度: 8192 令牌
模型功能
L3-Aethora-15B v2 的目标是提高在广泛任务中的能力,重点在于创意写作
- 创意写作和讲故事
- 生成引人入胜的叙事、诗歌和创意内容
- 适应各种文风和语气
- 协助构思情节和角色创建
- 通用智能
- 在医学主题和科学概念上展开详细讨论
- 解释复杂科学现象
- 协助文献综述和假设生成
- 教学和教育内容
- 创建全面教程和操作指南
- 用清晰和适当的深度解释复杂主题
- 为各种技能水平生成教育材料
- 推理和问题解决
- 分析复杂场景并提供逻辑解决方案
- 在各个领域进行逐步问题解决
- 针对挑战性问题提供多个观点
- 情境理解和适应性
- 在长时间交互中保持连贯、情境感知的对话
- 根据用户的偏好和需求调整沟通风格
- 用适当的深度和敏感度处理复杂的查询
数据集创建过程
L3-Aethora-15B v2训练中使用Aether-Lite-V1.8.1数据集经历了严格的创建和编辑过程
- 数据收集:从12个不同的高质量数据集中汇总,包括
- jondurbin/airoboros-3.2
- jtatman/medical-sci-instruct-100k-sharegpt
- Doctor-Shotgun/no-robots-sharegpt
- QuietImpostor/Sao10K-Claude-3-Opus-Instruct-15K-ShareGPT
- TheSkullery/WizardLM_evol_instruct_v2_Filtered_Fuzzy_Dedup_ShareGPT
- TheSkullery/Gryphe-Opus-WritingPrompts-merged
- Alignment-Lab-AI/RPGuild-sharegpt-filtered
- 及其他,提供丰富的指令、创意写作和专业知识
- 数据预处理
- 语言检测:使用FastText语言模型确保英文内容
- 文本净化:清理并标准化文本,移除或替换有问题的字符
- 短语过滤:删除特定的不需要的短语和内容类型
- 去重
- 实施了95%相似度阈值的先进模糊去重
- 利用文本嵌入和余弦相似度计算进行高效比较
- 移除了16,250条重复条目,确保数据集独特性
- 数据平衡
- 从每个源数据集仔细抽样以维护多样性
- 实施了数据洗牌以确保样本的随机分布
最终数据集包含125,119个高质量、多样化的样本,在创意、实用知识和知识深度之间取得平衡。
使用的完整数据集已对外发布,并对所有用户开放(见展示部分),任何关于进一步扩展数据集的想法或建议都欢迎提出
开放LLM排行榜评估结果
详细结果可在此处找到 这里
| 指标 | 值 |
|---|---|
| 平均 | 24.57 |
| IFEval (0-Shot) | 72.08 |
| BBH (3-Shot) | 28.97 |
| MATH Lvl 5 (4-Shot) | 7.33 |
| GPQA (0-shot) | 5.03 |
| MuSR (0-shot) | 6.25 |
| MMLU-PRO (5-shot) | 27.78 |