Breeze-7B-32k-Instruct 模型源自基线模型 Breeze-7B-32k-Base,使得结果模型适用于常见的任务。〈f16, Q4, Q4_K_M〉

7B

158 拉取 更新于 2 个月前

说明

联发科研究院Breeze-7B-32k-Instruct-v1_0模型卡片

来源:链接

联发科研究院Breeze-7B(以下简称Breeze-7B)是在Mistral-7B的基础上构建的语言模型家族,专门用于繁体中文。

Breeze-7B-Base 是 Breeze-7B 系列的基础模型。
如果您有大量微调数据,适合对其进行微调以适应您的特定用例。

Breeze-7B-Instruct 从基础模型 Breeze-7B-Base 衍生而来,使生成的模型更容易用于常见的任务。

Breeze-7B-32k-Base 通过增加数据、基础模型变更以及禁用滑动窗口从基础模型扩展而来。
大致相当于44k繁体中文字符。

Breeze-7B-32k-Instruct是从基础模型 Breeze-7B-32k-Base 衍生而来,使得生成的模型适合用于常见的任务。

实用性方面
- Breeze-7B-Base 通过增加额外的30000个繁体中文词汇扩展了原始词汇表。扩展词汇后,在所有其他条件都相同的情况下,Breeze-7B 在处理繁体中文方面相对于 Mistral-7B 和 Llama 7B 的推理速度提高了一倍。[参见 推理性能。]
- Breeze-7B-Instruct 可以直接用于常见任务,如问答、RAG、多轮对话和总结。
- Breeze-7B-32k-Instruct 可以在文档级别执行任务(对于中文,20 ~ 40页)。

项目成员(按字母顺序排列):許湛然、廖峰挺、許博竣、陳宜昌和指导老师許大山。

特点

  • Breeze-7B-32k-Base-v1_0

    • 将词汇字典的大小从32k扩展到62k,以更好地支持繁体中文
    • 32k个标记的上下文长度
  • Breeze-7B-32k-Instruct-v1_0

    • 将词汇字典的大小从32k扩展到62k,以更好地支持繁体中文
    • 32k个标记的上下文长度
    • 多轮对话(无针对有害性的特殊处理)

模型详情

  • Breeze-7B-32k-Base-v1_0
    • 预训练来自: Breeze-7B-Base
    • 模型类型:因果解码器仅变换语言模型
    • 语言:英语和繁体中文(zh-tw)
  • Breeze-7B-32k-Instruct-v1_0
    • 微调来自: Breeze-7B-32k-Base
    • 模型类型:因果解码器仅变换语言模型
    • 语言:英语和繁体中文(zh-tw)

长上下文性能

针插草丛性能

我们使用密钥检索任务来测试模型在给定序列中关注不同深度的能力。
模型需要在一个分散的文档中检索。一个关键字已被放在一个上下文中。
关键字位置被分入16个桶中,每个桶有20个测试案例。
Breeze-7B-32k-Base 以90%以上的准确率完成了任务,如图所示。
Needle-in-a-haystack Performance

长-DRCD 性能

模型/性能(EM) DRCD DRCD-16k DRCD-32k
Breeze-7B-32k-Instruct-v1_0 76.9 54.82 44.26
Breeze-7B-32k-Base-v1_0 79.73 69.68 61.55
Breeze-7B-Base-v1_0 80.61 21.79 15.29

短期基准性能

模型/性能(EM) TMMLU+ MMLU TABLE MT-Bench-tw MT-Bench
Breeze-7B-32k-Instruct-v1_0 41.37 61.34 34 5.8 7.4
Breeze-7B-Instruct-v1_0 42.67 62.73 39.58 6.0 7.4

引用

@article{MediaTek-Research2024breeze7b,
      title={Breeze-7B Technical Report}, 
      author={Chan-Jan Hsu and Chang-Le Liu and Feng-Ting Liao and Po-Chun Hsu and Yi-Chang Chen and Da-Shan Shiu},
      year={2024},
      eprint={2403.02712},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}