7 pulls 更新于5周前

说明文档













L3-Aethora-15B v2





由以下人员展出


创作者: ZeusLabs



数据集: Theskullery/Aether-Lite-V1.8.1


训练: 使用 4 x A100 进行 17.5 小时训练,处理 125k 个样本


赞助: Garg (@g4rg)


关于 L3-Aethora-15B v2


 L3 = Llama3 

L3-Aethora-15B v2 是基于 Llama 3 架构的高级语言模型。它采用最先进的训练技术以及精心挑选的数据集,以在广泛的任务中提升性能。


(感谢大家的兴趣!该模型已以所有格式在 150k 下载!)


量化



训练过程



  • 基础模型: elinas/Llama-3-15B-Instruct-zeroed

  • 训练时间: 在 4 x A100 GPU 上 17.5 小时

  • 训练方法: LoRA (低秩调整)

  • 周期: 4

  • 精度: BF16

  • 序列长度: 8192 令牌


模型功能


L3-Aethora-15B v2 的目标是提高在广泛任务中的能力,重点在于创意写作



  • 创意写作和讲故事

    • 生成引人入胜的叙事、诗歌和创意内容

    • 适应各种文风和语气

    • 协助构思情节和角色创建



  • 通用智能

    • 在医学主题和科学概念上展开详细讨论

    • 解释复杂科学现象

    • 协助文献综述和假设生成



  • 教学和教育内容

    • 创建全面教程和操作指南

    • 用清晰和适当的深度解释复杂主题

    • 为各种技能水平生成教育材料



  • 推理和问题解决

    • 分析复杂场景并提供逻辑解决方案

    • 在各个领域进行逐步问题解决

    • 针对挑战性问题提供多个观点



  • 情境理解和适应性

    • 在长时间交互中保持连贯、情境感知的对话

    • 根据用户的偏好和需求调整沟通风格

    • 用适当的深度和敏感度处理复杂的查询



数据集创建过程


L3-Aethora-15B v2训练中使用Aether-Lite-V1.8.1数据集经历了严格的创建和编辑过程



  1. 数据收集:从12个不同的高质量数据集中汇总,包括

    • jondurbin/airoboros-3.2

    • jtatman/medical-sci-instruct-100k-sharegpt

    • Doctor-Shotgun/no-robots-sharegpt

    • QuietImpostor/Sao10K-Claude-3-Opus-Instruct-15K-ShareGPT

    • TheSkullery/WizardLM_evol_instruct_v2_Filtered_Fuzzy_Dedup_ShareGPT

    • TheSkullery/Gryphe-Opus-WritingPrompts-merged

    • Alignment-Lab-AI/RPGuild-sharegpt-filtered

    • 及其他,提供丰富的指令、创意写作和专业知识



  2. 数据预处理

    • 语言检测:使用FastText语言模型确保英文内容

    • 文本净化:清理并标准化文本,移除或替换有问题的字符

    • 短语过滤:删除特定的不需要的短语和内容类型



  3. 去重

    • 实施了95%相似度阈值的先进模糊去重

    • 利用文本嵌入和余弦相似度计算进行高效比较

    • 移除了16,250条重复条目,确保数据集独特性



  4. 数据平衡

    • 从每个源数据集仔细抽样以维护多样性

    • 实施了数据洗牌以确保样本的随机分布



最终数据集包含125,119个高质量、多样化的样本,在创意、实用知识和知识深度之间取得平衡。


使用的完整数据集已对外发布,并对所有用户开放(见展示部分),任何关于进一步扩展数据集的想法或建议都欢迎提出





开放LLM排行榜评估结果

详细结果可在此处找到 这里

指标
平均 24.57
IFEval (0-Shot) 72.08
BBH (3-Shot) 28.97
MATH Lvl 5 (4-Shot) 7.33
GPQA (0-shot) 5.03
MuSR (0-shot) 6.25
MMLU-PRO (5-shot) 27.78

https://hugging-face.cn/ZeusLabs/L3-Aethora-15B-V2