Breeze-7B-32k-Instruct是从基础模型Breeze-7B-32k-Base推导而来,使得生成的模型可以用于常见的任务。〈f16, Q4, Q4_K_M〉
158 拉取 2个月前更新
2个月前更新
2个月前
8b84df66d3e5 · 4.3GB
README
MediaTek Research Breeze-7B-32k-Instruct-v1_0 模型卡片
来源: 链接
MediaTek Research Breeze-7B(以下简称为 Breeze-7B)是建立在Mistral-7B之上,专门为繁体中文使用而定制的一个语言模型系列。
Breeze-7B-Base是 Breeze-7B 系列的基础模型。
如果你有大量的微调数据,将其用于特定用例的微调是适合的。
Breeze-7B-Instruct源自基础模型 Breeze-7B-Base,使得所产生的模型可以直接用于常见任务。
Breeze-7B-32k-Base是在基础模型的基础上扩展的,拥有更多的数据、基础改动和禁用滑动窗口。
大致相当于44k个繁体中文字符。
Breeze-7B-32k-Instruct源自基础模型 Breeze-7B-32k-Base,使得所产生的模型可以直接用于常见任务。
实用性方面
- Breeze-7B-Base版本通过增加3万个繁体字对原有的词汇进行了扩展。在词汇量扩展的情况下,Breeze-7B对于处理繁体中文信息,推理速度是Mistral-7B和Llama 7B的两倍。[见推理性能。]
- Breeze-7B-Instruct可以直接用于常见的任务如问答、阅读理解、多轮对话和摘要。
- Breeze-7B-32k-Instruct能够在文档级别进行任务(对于中文,为20至40页)。
本项目由以下成员完成(按字母顺序):許湛然、廖峰挺、許博竣、陳宜昌,指导老师許大山。
功能特点
Breeze-7B-32k-Base-v1_0
- 将词汇字典大小从32k扩展到62k,以更好地支持繁体中文
- 32k词元上下文长度
- 将词汇字典大小从32k扩展到62k,以更好地支持繁体中文
Breeze-7B-32k-Instruct-v1_0
- 将词汇字典大小从32k扩展到62k,以更好地支持繁体中文
- 32k词元上下文长度
- 多轮对话(无需处理危害性)
- 将词汇字典大小从32k扩展到62k,以更好地支持繁体中文
模型详细信息
- Breeze-7B-32k-Base-v1_0
- 预训练自:Breeze-7B-Base
- 模型类型:只有因果解码器的Transformer语言模型
- 语言:英语和繁体中文(zh-tw)
- 预训练自:Breeze-7B-Base
- Breeze-7B-32k-Instruct-v1_0
- 微调自:Breeze-7B-32k-Base
- 模型类型:只有因果解码器的Transformer语言模型
- 语言:英语和繁体中文(zh-tw)
- 微调自:Breeze-7B-32k-Base
长上下文性能
在草堆中找针的性能
我们使用密钥检索任务来测试模型在给定序列中关注不同深度的能力。
在长上下文中放置了一个密钥让模型检索。
密钥位置被分成了16个区间,每个区间有20个测试案例。
Breeze-7B-32k-Base以90%以上的准确率完成了任务,见下图中。
长DRCD性能
模型/性能(EM) | DRCD | DRCD-16k | DRCD-32k |
---|---|---|---|
Breeze-7B-32k-Instruct-v1_0 | 76.9 | 54.82 | 44.26 |
Breeze-7B-32k-Base-v1_0 | 79.73 | 69.68 | 61.55 |
Breeze-7B-Base-v1_0 | 80.61 | 21.79 | 15.29 |
短期基准性能
模型/性能(EM) | TMMLU+ | MMLU | TABLE | MT-Bench-tw | MT-Bench |
---|---|---|---|---|---|
Breeze-7B-32k-Instruct-v1_0 | 41.37 | 61.34 | 34 | 5.8 | 7.4 |
Breeze-7B-Instruct-v1_0 | 42.67 | 62.73 | 39.58 | 6.0 | 7.4 |
引用
@article{MediaTek-Research2024breeze7b,
title={Breeze-7B Technical Report},
author={Chan-Jan Hsu and Chang-Le Liu and Feng-Ting Liao and Po-Chun Hsu and Yi-Chang Chen and Da-Shan Shiu},
year={2024},
eprint={2403.02712},
archivePrefix={arXiv},
primaryClass={cs.CL}
}