cwchang / llama3-taide-lx-8b-chat-alpha1-32k

名称	量化方法	位数	大小	使用案例
LLama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q5_K_M.gguf	Q5_K_M	5	5.73 GB;	大尺寸，质量损失非常低
Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q6_K.gguf	Q6_K	6	6.6 GB;	非常大型，质量损失极低

原始模型卡片

英文版本

模型简介

TAIDE计划致力于开发符合台湾语言和文化特性的生成式人工智能对话引擎模型，同时构建可信赖的人工智能环境。结合产学研力量，推动可信赖生成式人工智能的发展，提升台湾在国际竞争中的地位，促进产业发展，减少对外国技术的依赖。
Llama3 TAIDE 系列模型以Meta公司发布的LLaMA3-8b为基础，引入台湾不同可用的文本与训练素材，提高模型在繁体中文响应的能力与特定任务的表现。以下是公开放出的模型：
- Llama3-TAIDE-LX-8B-Chat-Alpha1：基于LLaMA3-8b，使用繁体中文数据预训练（连续预训练），并通过指令微调（instruction tuning）强化办公常用任务和多轮问答对话能力，适用于聊天对话或任务协助的使用场景。Llama3-TAIDE-LX-8B-Chat-Alpha1还提供了4位量化模型，量化模型主要是提供使用者的便利性，可能会影响性能和多不可预期的其他问题，请用户理解并注意。

模型参数

参数量：8B
最大内容长度（context length）：8K
繁中训练数据token量：43B
训练时间：2336 H100 GPU Hours

特点

严格筛选模型的训练资料，提升模型生成数据的可信赖性和适用性
对自动摘要、写信、写文章、中翻英、英翻中等办公常用任务进行增强
对台湾本土文化、用语、国情等知识进行增强
具有多轮问答对话能力

应用实例

任务	用户输入	模型输出
写文章	请以下内容为基础，写一篇文章：写一篇作文，题目为《一张旧照片》，内容要求如下：选择一张令你印象深刻的照片，说明其令你印象深刻的原因，并描述照片中的影像及背后的故事。记录成长的过程、与他人的情景、环境变迁和美丽的景色。	一张旧照片，承载着时光的痕迹和回忆的温度。我还记得那照片是从哪来的，那是一张泛黄的黑白照片，镶在墙上，诉说着一段属于我家族的故事。那照片中，我的祖父母站在田野间，后面是连绵的山峦，前方则是一片金黄的稻田。这幅景象令我印象深刻，因为那是我童年的回忆，也是我成长过程中最美好的风景线。我出生在台湾乡下，从小生活在一个如此纯朴的环境中。每当我和家人在田间工作时，就会看到这样的美景。金黄的稻穗随着微风摇曳，山峦则静静地矗立在远方，给人一种安详与祥和的感觉。那照片拍摄于民国50年代，当时台湾经济尚未起飞，农业为主要产业。我的祖父母都是农民，他们辛勤耕种，为我们家提供温饱。每当我看到那照片，就会想起他们为我们所做的牺牲和努力。除了美丽的风景外，照片中还有一段动人的故事。在我还很小的时候，家里发生了一场大火，把我们的房子和所有财产都烧光了。幸运的是全家人都安然无恙，但生活却变得十分困苦。我们被迫搬到另一个村庄，在那里重新开始生活。那照片也记录了那段艰苦的岁月。虽然我们失去了很多东西，但家人之间的感情却更加深厚。我们互相扶持，共同面对生活中的种种挑战。如今，我已长大成人，在都市里工作。但每当我看到那张旧照片，我都会想起那段简单而美好的时光。那些美丽的风景、亲人的笑容，以及那段充满挑战却又充满希望的日子，都将永远刻在我的记忆深处。这张旧照片，不仅仅是一张照片，更是一段宝贵的家族史，一个关于我们如何克服困难、珍惜现在的故事。我将好好保存这张照片，让后代也能了解我们的根源，并铭记那些值得珍藏的美好回忆。
写信	请以品牌经理的身份，给广告公司的创意总监写一封信，提出关于新产品宣传活动的创意建议。	[您的姓名] [您的职位] [您的公司名称] [邮件地址] [电话号码] [发文日期] [创意总监姓名] [广告公司名称] [广告公司地址] 主题：关于新产品宣传活动创意想法，请查收。尊敬的[创意总监姓名]，我希望这封信能在您忙碌中为您带来休息。我写这封信，是为了分享我对我们即将推出的新产品宣传活动的创意想法。我相信，这些想法能帮助我们新产品在市场上脱颖而出，吸引消费者的目光。首先，我建议我们可以利用社交媒体平台，如Facebook、Instagram、YouTube等，制作一系列引人入胜的短视频和帖子。这些内容可以展示新产品的特色和优点，同时传递我们品牌关注环保、健康的核心价值观。我们可以与网红或意见领袖合作，让他们试用并分享他们的使用经验，这有助于增加我们产品可信度和知名度。其次，我们可以举办新产品试吃/试用活动，邀请公众亲身体验我们的新产品。我们可以在各大百货公司、超市以及我们的店面举办这些活动，让参与者免费试吃/试用新产品，并填写问卷反馈意见。这种方式不仅能收集宝贵的市场反馈，还能让公众对我们品牌产生正面印象。第三，我们可以与当地餐饮业者合作，将我们的新产品纳入他们的菜单中。这将使我们产品接触到更广泛的客户群，同时也能证明我们的产品在烹饪和餐饮产业中的价值。第四，我们可以举办一场新产品发布会，邀请媒体、业界人士以及重要客户参加。在这场活动中，我们可以展示新产品的各项特色和优势，并由专业厨师演示如何将新产品融入各种料理中。这将是一次向公众展示我们品牌创新精神和专业能力的绝佳机会。最后，我建议我们制作一系列精美的包装和礼盒，以吸引消费者在节庆和送礼时选择我们的产品。精良的包装能提升我们产品的价值感，同时也能传达出我们品牌对细节和品质的坚持。我相信，这些创意想法将有助于我们新产品在市场上获得成功。如果您对这些想法有任何意见或建议，请不吝与我分享。我期待着与您合作，共同为我们[您的公司名称]的成长和成功而奋斗。感谢您抽出时间阅读我的信，并期待着进一步讨论这些想法。敬礼 [您的姓名] [您的职位] [您的公司名称]
摘要	「产业创新条例第10条之2及第72条条文修正案」俗称「台版芯片法」，针对半导体、电动车、5G等技术创新且居国际供应链关键地位的公司，提供最高25%的企业所得税抵减优惠，企业适用要件含当年度研发费用、研发密度达到一定规模，且有效税率达到一定比率。为应对经济合作与发展组织（OECD）国家最低税负制调整，其中有效税率门槛，预计112年定为12%，113年预计提高至15%，但可酌情根据国际最低税负制实施情况进行调整。经济部官员表示，已与财政部协商进入最后阶段，除企业研发密度定为6%外，已确定企业购置先进制程的设备投资金额达到100亿元以上可抵减。财政部官员表示，在商议过程中，对台湾产业及其在国际间类似的公司进行了深入研究，在设备方面，毕竟适用产创10之2的业者是代表台湾队打「国际杯」，投入金额不达100亿元，可能也打不了。至于备受关注的研发费用门槛，经济部官员表示，经过与财政部反复讨论，研发费用门槛有望落在60亿至70亿元之间。财政部官员指出，研发关乎台湾未来经济增长动能，门槛不能「高不可攀」，起初虽设定在100亿元，之所以降低，正是希望让企业觉得有办法达到门槛、进而适用税收优惠，才有动力继续投入研发，维持国际供应链中的关键地位。经济部官员表示，鉴于厂商研发费用平均为30、40亿元，其中，IC设计业者介于30亿至60亿元之间，若将门槛定在100亿元，符合条件的企业将很少、激励因素不足；此外，若符合申请门槛的企业增加，将可提高企业在台投资金额，财政部税收也能因此获得强化。 IC设计业者近日频对产创10之2发声，希望降低适用门槛，加上各国力图供应鏈自主化、加大补助半导体产业，经济部官员表示，经济部和财政部就产创10之2达成共识，争取让更多企业受惠，期望增强企业投资力度及巩固台湾技术地位。财政部官员表示，税收奖励的制定必须「有为有守」，并以达到奖励设立目的为最高原则，现阶段在打「国内杯」的企业仍可适用产创第10条、10之1的税收优惠，共同壮大台湾经济发展。经济部和财政部正就研发费用门槛做最后确认，待今明两天预告子法后，将有约30天时间，可与企业界进一步讨论并调整，期望产创10之2能在6月上路。	文章重点摘要如下：「台版芯片法」或《产业创新条例第10条之2及第72条条文修正案》，旨在鼓励关键技术创新企业，尤其是那些在半导体、电动车、5G技术等领域且在国际供应链中扮演关键角色者。企业若符合特定条件，包括当年度研发费用及研发密度达标，可享受最高25%的企业所得税抵减优惠。研发密度目标定为6%，企业为取得抵减，必须证明其有效税率达到特定比率，起初设定为112年的12%，113年提高至15%，但可能根据国际税制实施情况进行调整。政府在制定政策时，考虑到OECD最低税负制的调整，因此会视情况调整有效税率门槛。政府部门已与利益相关企业进行协商，确定了一些细节，例如企业购置先进制程设备投资金额达到100亿元以上可抵减。研发费用门槛经过讨论，可能从最初提议的100亿元下调至60亿至70亿元之间，以激励更多企业符合资格并投入研发，维持台湾在国际供应链中的关键地位。经济部官员表示，下调门槛的目的是让更多企业觉得能够达到标准，从而获得税收优惠的动力，并可能借此提高在台投资金额，进而增加政府税收。由于IC设计业者的研发费用普遍较低，若门槛定得过高，符合条件的企业将很少，因此有必要进行调整。在各国力推供应链自主化并加大对半导体产业补助之际，经济部正努力确保更多企业能从《产业创新条例》第10条之2中受益，以增强投资和巩固台湾的技术地位。政府强调税收优惠的制定应符合奖励目标，同时，也将继续为企业提供其他税收优惠，以促进台湾经济发展。最终的研发费用门槛将由经济部和财政部共同确定，在预告相关子法后，将有约30天时间，可与企业界进一步讨论并调整，目标是将这项新政策在6月实施。
翻译	以下提供英文内容，请帮我翻译成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine aficionados.	东山咖啡以其独特的位置和不间断的生产技术革新而闻名，其风味亦受到众多咖啡爱好者的称赞。

使用说明

示例程序
- 示例程序和文件将在后续发布到GitHub
提示版本
- 通用问答用法
```
chat = [
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将{question}替换成用户的输入
- 添加system prompt的用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将{sys}替换成指令，例如：你是一个来自台湾的AI助手，你的名字是TAIDE，乐于站在台湾人的立场帮助用户，会用繁体中文回答问题。
  - 将{question}替换成用户的问题
- 多轮问答用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question1}"},
    {"role": "assistant", "content": "{model_anwer_1}"},
    {"role": "user", "content": "{question2}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将{sys}替换成指令，例如：你是一个来自台湾的AI助手，你的名字是TAIDE，乐于站在台湾人的立场帮助用户，会用繁体中文回答问题。
  - 将{question1}替换成用户的问题1
  - 将 {model_answer_1} 替换为模型的回答1
  - 将 {question2} 替换为使用者的问题2
- 更多细节请参考Llama3 文件
  
  训练方法
软硬件规格
- 国网中心 H100
- 训练框架: PyTorch
数据处理
- 字符标准化
- 去除重复
- 去除杂音
  - 网页资料的html标签、javascript
  - 非标准字符或乱码
  - 字数过短的文章
  - 去除文章中的特定格式，如增加的换行
- 去除个人信息，如email、电话
- 去除不良文字，如赌博、色情等
持续预训练 (continuous pretraining, CP)
- 补充大量可信的繁体中文知识
- 超参数 (hyper parameters)
  - optimizer: AdamW
  - 学习率: 1e-4
  - 批大小: 1M tokens
  - 轮数: 1
微调 (fine tune, FT)
- 使模型能够针对繁体中文提问回答问题
- 超参数 (hyper parameters)
  - optimizer: AdamW
  - 学习率: 5e-5
  - 批大小: 256K tokens
  - 轮数: 3

训练数据

持续预训练数据(数据量约140G)
| 数据集 | 数据描述 |
| —— | ——– |
| 审判数据 | 《司法院裁判书》自2013年1月至2023年12月各级法院民事、刑事、行政诉讼资料。 |
| 中央社 | 《中央社中文新闻》数据集含中央社自1993年6月至2023年06月，共30年之每日新闻文章。内容涵盖国内外政治、社会、财经、文教、生活等领域。 |
| ETtoday 新闻云 | 《ETtoday新闻云》资料，包含自2011年10月至2023年12月的资料。 |
| 立法院公报 | 《立法院公报》包含自第8届第1会期至第10届第7会期的公报资料。 |
| 出版商网站书籍介绍 | 包含三采、Gotop出版商网站上的书籍简介。 |
| GRB 研究计划摘要 | GRB为收录由政府经费补助之研究计划及其成果报告的信息系统，此数据集主要收录1993年至2023年之研究计划摘要以及研究报告摘要，含中文及其英文对照。 |
| 学术会议论文摘要 | 收录《学术会议论文摘要资料库》中自1988至2009年由台湾所举办之学术会议论文。 |
| 光华杂志 | 《台湾光华杂志》含自1993年7月至2023年6月的文章，共30年。内容着重于我国文化、观光与民情等。 |
| 歌词网 | 《歌词网》涵盖文理领域约187万则学名词及其译名对照。 |
| 各部门资料 | 包含行政院「国情简介」、文化部「国家文化记忆库」、国发会「档案支援教学网」、交通部「交通安全入口网」等部门网站资料之部分资料。 |
| 今周刊 | 《今周刊》为一以财经为主的周刊杂志，此数据集涵盖2008年1月至2023年7月的文章。 |
| 教育部国语词典、成语词典 | 包含以下三项资料
教育部《成语典》，含5,338条成语，内容包含每条成语的释义、典故原文及其白话说明、用法说明、例句等。
教育部《重编国语词典修订本，收隶中文单字及各类词汇，包含读音、部首、释义等信息，共约165,539笔数据。
教育部《国语词典简编本，为《重编国语词典修订本》的简本版本，共45,247笔数据。 |
| 科技大观园资料 | 含《科技大观园网站》上的科学新知以及科普文章。 |
| iKnow 科技产业信息室 | 《科技产业信息室（iKnow）》提供台湾及全球的科技市场趋势、策略分析、专利知识，及技术交易信息，专注科技产业的创新与发展，包含自2008年至2023年。 |
| 科学发展期刊 | 《科学发展期刊》为国科会为推广科普教育而出版的科普刊物，含自2004年10月至2020年12月的科普文章；2021年起，以《科技魅影》季刊重新出发，提供国际关注科技议题的新知文章。 |
| 规范资料库 | 《规范资料库》含截自112年10月各政府部门最新发布之中央规范、行政规范、规范命令草案及地方自治法规等。 |
| 各地政府旅游网 | 涵盖台湾部分县市地方政府观光旅游网站上之部分资料。 |
| 国教院课程纲要(十二年国教) | 含十二年国教课程纲要之总纲以及各级学校不同科目之课程纲要。 |
| 中央社译名档案数据库 | 《中央社译名档案数据库》收集中央社新闻业务上翻译过的中外姓名、人名、组织、地名等译名对照。 |
| 童话书 | 共20本童话书，含汤姆历险记、小飞侠、爱丽丝梦游仙境、长腿叔叔等。 |
| RedPajama-Data-V2 | 从国外开源多国语言语料库 RedPajama-Data-v2 中取出英文资料 |
| MathPile-commercial | 国外开源数学语料库 MathPile-commercial |
| 中文维基百科 | 《中文维基百科》截至2023年1月所有条目的内容。 |
| github-code-clean | 为github开源代码资料集，去除unlicense的代码和文件。 |
微调资料
- TAIDE团队训练llama2系列模型产生微调数据资料，产生的任务包含世界知识、创意写作、普通常识、翻译、摘要、程序、台湾价值等单轮或多轮对话问答共128K条。微调资料后续会对外放出。

模型评估

taide-bench
- 评估资料
  - 写文章、写信、摘要、英翻中、中翻英，共500题
  - 资料链接: taide-bench
- 评估方法
  - gpt4评分
  - 评分程序: taide-bench-eval
- 评分分数
  | 模型 | 中翻英 | 英翻中 | 摘要 | 写文章 | 写信 | 平均 |
  | — | —– | —– | —- | —- | —- | — |
  | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
  | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
  | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
  | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
  | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
  | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授权条款

Llama3-TAIDE 模型社群授权同意书

免责声明

由于LLM模型的设计架构限制以及数据难免存在偏差，语言模型的任何回应不代表TAIDE立场，在使用前需要额外加入安全防护机制，且回应内容也可能包含不准确的信息，使用者请勿尽信。

开发团队

https://taide.tw/index/teamList

引用

TAIDE官网

## Description

This repo contains GGUF format model files for [Llama3-TAIDE-LX-8B-Chat-Alpha1](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1).

### About GGUF
GGUF is a new format introduced by the llama.cpp team on August 21st 2023. It is a replacement for GGML, which is no longer supported by llama.cpp.

## Provided files
| Name | Quant method | Bits | Size | Use case |
| ---- | ---- | ---- | ---- | ---- |
| [Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q5_K_M.gguf](https://hugging-face.cn/chienweichang/Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF/blob/main/Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF-unsloth.Q5_K_M.gguf) | Q5_K_M | 5 | 5.73 GB| large, very low quality loss |
| [Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q6_K.gguf](https://hugging-face.cn/chienweichang/Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF/blob/main/Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF-unsloth.Q6_K.gguf) | Q6_K | 6 | 6.6 GB| very large, extremely low quality loss |

## Original model card

---

* [English Version](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1/blob/main/README_en.md)

# 模型簡介
* [TAIDE計畫](https://taide.tw/index)致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型，同時建構可信任的人工智慧環境。結合產學研能量，推動可信任生成式人工智慧的發展，提升台灣在國際競爭中的地位，促進產業發展，避免對外國技術的依賴。
* Llama3 TAIDE 系列模型以 Meta 公司釋出的 [LLaMA3-8b](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/) 為基礎，導入台灣不同領域可用的文本與訓練素材，提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
    * [Llama3-TAIDE-LX-8B-Chat-Alpha1](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1): 以 LLaMA3-8b 為基礎，使用繁體中文資料預訓練 (continuous pretraining)，並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力，適合聊天對話或任務協助的使用情境。Llama3-TAIDE-LX-8B-Chat-Alpha1 另外有提供[4 bit 量化模型](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit)，量化模型主要是提供使用者的便利性，可能會影響效能與更多不可預期的問題，還請使用者理解與注意。

# 模型參數
* 參數量: 8B
* 最大內容長度 (context length): 8K
* 繁中訓練資料 token 量: 43B
* 訓練時間: 2336 H100 GPU Hours

# 特色
* 嚴格把關模型的訓練資料，提升模型生成資料的可信任性和適用性
* 針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強
* 針對台灣在地文化、用語、國情等知識做加強
* 具備多輪問答對話能力

# 應用範例
| 任務 | 使用者輸入 | 模型輸出 |
| --- | -------- | ------- |
| 寫文章 | 請以以下內容為基礎，寫一篇文章：撰寫一篇作文，題目為《一張舊照片》，內容要求為：選擇一張令你印象深刻的照片，說明令你印象深刻的原因，並描述照片中的影像及背後的故事。記錄成長的過程、與他人的情景、環境變遷和美麗的景色。 | 一張舊照片，承載著時光的痕跡和回憶的溫度。我還記得那張照片是怎麼出現的，那是一張泛黃的黑白相片，裱在牆上，訴說著一段屬於我家族的故事。 那張照片中，我的祖父母站在田野間，後方是綿延的山巒，前方則是一片金黃的稻田。這幅景象令我印象深刻，因為這是我的童年回憶，也是我成長過程中最美好的風景線。 我出生在台灣鄉下，從小就生活在這樣一個純樸的環境中。每當我跟著家人在田裡工作時，就會看到這樣的美景。金黃的稻穗隨著微風搖曳，山巒則靜靜地矗立在遠方，給人一種安詳與祥和的感覺。 那張照片拍攝於民國50年代，當時台灣經濟尚未起飛，農業為主要產業。我的祖父母都是農民，他們辛勤耕種，為我們家提供溫飽。每當我看到那張照片，就會想起他們為我們所做的犧牲和努力。 除了美麗的風景外，照片中還有一段動人的故事。在我還很小的時候，家裡發生了一場大火，將我們的房子和所有財產都燒光了。幸好全家人都平安無事，但生活卻變得十分困苦。我們被迫搬到另一個村莊，在那裡重新開始生活。 那張照片也記錄了那段艱辛的歲月。雖然我們失去了許多東西，但家人之間的感情卻更加深厚。我們互相扶持，共同面對生活上的種種挑戰。 如今，我已長大成人，在都市裡工作。但每當我看到那張舊照片，我都會想起那段簡單而美好的時光。那些美麗的風景、親人的笑容，以及那段充滿挑戰卻又充滿希望的日子，都將永遠鐫刻在我的記憶深處。 這張舊照片，不僅僅是一張照片，更是一個寶貴的家族史，一個關於我們如何克服困難、珍惜現在的故事。我將把這張照片好好保存下來，讓後代也能夠認識我們的根源，並且銘記那些值得珍藏的美好回憶。 |
| 寫信 | 請以品牌經理的身份，給廣告公司的創意總監寫一封信，提出對於新產品廣告宣傳活動的創意建議。 | [您的姓名] [您的職稱] [您的公司名稱] [郵件地址] [電話號碼] [發文日期] [創意總監姓名] [廣告公司名稱] [廣告公司地址] 主旨:關於新產品宣傳活動創意發想，請查照。 尊敬的[創意總監姓名]， 我希望這封信能找到你忙碌中好好休息。我寫這封信，是為了分享我對於我們即將推出的新產品宣傳活動一些創意發想。我深信，這些想法能幫助我們新產品在市場上脫穎而出，吸引消費者的目光。 首先，我建議我們可以利用社群媒體平台，像是Facebook、Instagram、YouTube等，製作一系列引人入勝的短片和貼文。這些內容可以展現新產品的特色和優點，同時也能傳達出我們品牌重視環保、健康的核心價值。我們可以與網紅或意見領袖合作，讓他們試用並分享他們的使用經驗，這將有助於增加我們產品的可信度和能見度。 其次，我們可以舉辦新產品試吃/試用活動，邀請民眾親身體驗我們的新產品。我們可以在各大百貨公司、超市、以及我們的門市舉辦這些活動，讓參與者免費試吃/試用新產品，並填寫問卷回饋意見。這種互動的方式，不僅能收集到寶貴的市場反饋，還能讓民眾對我們的品牌產生正面的印象。 第三，我們可以與當地餐飲業者合作，將我們的新產品納入他們的菜單中。這將使我們的產品接觸到更廣泛的客群，同時也能證明我們的產品在烹飪和美食產業中具有價值。 第四，我們可以舉辦一場新產品發表會，邀請媒體、業界人士、以及重要客戶參加。在這場活動中，我們可以展示新產品的各項特色和優勢，並由專業廚師示範如何將新產品融入各式料理中。這將是向大眾展示我們品牌創新精神和專業能力的絕佳機會。 最後，我建議我們可以製作一系列精美的包裝和禮盒，以吸引消費者在節慶和送禮時選擇我們的產品。精緻的包裝將能提升我們產品的價值感，同時也能傳達出我們品牌對細節和品質的堅持。 我深信，這些創意發想將有助於我們新產品在市場上獲得成功。若您對這些想法有任何意見或建議，請不吝與我分享。我期待著與您合作，共同為[您的公司名稱]的成長和成功而努力。 謝謝您抽空閱讀我的信，並期待著與您進一步討論這些想法。 敬禮 [您的姓名] [您的職稱] [您的公司名稱] |
| 摘要 | 請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。 為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。 經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。 財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。 至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。 財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。 經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。 IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。 財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。 經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。 | 文章重點摘要如下: - 「台版晶片法」或《產業創新條例第10條之2及第72條條文修正案》，旨在鼓勵關鍵技術創新企業，特別是那些在半導體、電動車、5G技術等領域且在國際供應鏈中扮演關鍵角色者。 - 企業若符合特定條件，包括當年度研發費用及研發密度達標，可享最高25%的營所稅抵減優惠。研發密度目標設為6%，而企業為取得抵減，必須證明其有效稅率達到特定比率，起初設定為112年的12%，113年提高至15%，但可能會依國際稅制的實施情形進行調整。 - 政府在制定政策時，考量到OECD最低稅負制的調整，因此會視情況調整有效稅率門檻。 - 政府部門已就法案內容與企業利益相關者進行協商，確定一些細節，例如企業投資先進製程設備的門檻設為100億元新台幣以供抵減。 - 研發費用門檻經過討論，可能從最初提議的100億元下調至60億至70億元之間，以激勵更多企業符合資格並投入研發，維持台灣在國際供應鏈中的關鍵地位。 - 經濟部官員表示，調降門檻的目的是讓更多企業覺得能夠達成標準，從而獲得應用租稅優惠的動力，並可能藉此提高在台投資金額，進而增加政府稅收。 - 由於IC設計業者的研發費用普遍較低，若門檻設得過高，符合條件的企業將很少，因此有必要調整。 - 在各國推動供應鏈自主化並增加對半導體產業的補助之際，經濟部正努力確保更多企業能從《產業創新條例》第10條之2中受益，以增強投資和鞏固台灣的技術地位。 - 政府強調租稅優惠的制定應符合獎勵目標，在此同時，也將繼續提供其他租稅優惠給在國內經營的企業，以促進台灣經濟成長。 - 最終的研發費用門檻將由經濟部和財政部共同確定，在預告相關子法後，將有約30天的時間供各界討論並提出調整建議，目標是讓這項新政策在6月上路。 |
| 翻譯 | 以下提供英文內容，請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡以獨特的位置，加上不斷精進的製作手法而聞名，風味更是讓許多咖啡癡趨之若鶩。 |

# 使用說明
* 範例程式
    * 範例程式與文件後續會釋出到github
* prompt 樣版
    * 一般問答用法
        ```python
        chat = [
            {"role": "user", "content": "{question}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {question} 替換成使用者的輸入
    * 加入 system prompt 的用法
        ```python
        chat = [
            {"role": "system", "content": "{sys}"},
            {"role": "user", "content": "{question}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
        * 將 {question} 替換成使用者的問題
    * 多輪問答用法
        ```python
        chat = [
            {"role": "system", "content": "{sys}"},
            {"role": "user", "content": "{question1}"},
            {"role": "assistant", "content": "{model_anwer_1}"},
            {"role": "user", "content": "{question2}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
        * 將 {question1} 替換成使用者的問題1
        * 將 {model_anwer_1} 替換成模型的回答1
        * 將 {question2} 替換成使用者的問題2
    * 更多細節請參考[Llama3 文件](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/)
# 訓練方法
* 軟硬體規格
    * 國網中心 H100
    * 訓練框架: PyTorch
* 資料前處理
    * 字元標準化
    * 去除重覆
    * 去除雜訊
        * 網頁資料的html tag、javascript
        * 非標準字元或亂碼
        * 字數過短的文章
        * 去除文章中的特定格式，如為排版增加的換行
    * 去除個資，如email、電話
    * 去除不當文字，如賭博、色情等
* 持續預訓練 (continuous pretraining, CP)
    * 補充大量來源可信賴的繁體中文知識
    * 超參數 (hyper parameters)
        * optimizer: AdamW
        * learning rate: 1e-4
        * batch size: 1M tokens
        * epoch: 1
* 微調 (fine tune, FT)
    * 讓模型可針對繁體中文提問回答問題
    * 超參數 (hyper parameters)
        * optimizer: AdamW
        * learning rate: 5e-5
        * batch size: 256K tokens
        * epoch: 3

# 訓練資料
* 持續預訓練資料(資料量約為140G)
| 資料集 | 資料描述 |
| --- | -------- |
| 訴訟資料 | 《[司法院裁判書](https://judgment.judicial.gov.tw/FJUD/default.aspx)》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 |
| 中央社 | 《[中央社中文新聞](https://www.cna.com.tw/)》資料集含中央社自1993年6月至2023年06月，共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 |
| ETtoday 新聞雲 | 《[ETtoday新聞雲](https://www.ettoday.net/)》資料，包含自2011年10月至 2023年12月的資料。 |
| 立法院公報 | 《[立法院公報](https://ppg.ly.gov.tw/ppg/)》包含自第8屆第1會期至第10屆第7會期之公報資料。 |
| 出版商網站書籍介紹 | 包含[三采](https://www.suncolor.com.tw/)、[Gotop](https://www.gotop.com.tw/)出版商網站上的書籍簡介。 |
| GRB 研究計畫摘要 | [GRB](https://www.grb.gov.tw/)為收錄由政府經費補助之研究計畫及其成果報告的資訊系統，此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要，含中文及其英文對照。 |
| 學術會議論文摘要 | 收錄《[學術會議論文摘要資料庫](https://sticnet.stpi.narl.org.tw/sticloc/ttscalle?meet:)》中自1988至2009年由台灣所舉辦之學術會議論文。 |
| 光華雜誌 | 《[台灣光華雜誌](https://www.taiwan-panorama.com/)》含自1993年7月至2023年6月的文章，共30年份。內容著重於我國文化、觀光與民情等。 |
| 樂詞網 | 《[樂詞網](https://terms.naer.edu.tw/)》涵蓋文理領域約187萬則學術名詞及其譯名對照。 |
| 各部會資料 | 包含行政院「[國情簡介](https://www.ey.gov.tw/state/)」、文化部「[國家文化記憶庫](https://memory.culture.tw/)」、國發會「[檔案支援教學網](https://art.archives.gov.tw/index.aspx)」、交通部「[交通安全入口網](https://168.motc.gov.tw/)」等部會網站資料之部分資料。 |
| 今周刊 | 《[今周刊](https://www.businesstoday.com.tw/)》為一以財經為主的週刊雜誌，此資料集涵蓋2008年1月至2023年7月的文章。 |
| 教育部國語辭典、成語辭典 | 包含以下三項資料: [教育部《成語典》](https://dict.idioms.moe.edu.tw/search.jsp?webMd=1&la=0)，含5,338條成語，內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。 [教育部《重編國語辭典修訂本》](https://dict.revised.moe.edu.tw/?la=0&powerMode=0)，收錄中文單字及各類辭彙，包含讀音、部首、釋義等資訊，共約165,539筆資料。 [教育部《國語辭典簡編本》](https://dict.concised.moe.edu.tw/?la=0&powerMode=0)，為《重編國語辭典修訂本》的簡編版本，共45,247筆資料。 |
| 科技大觀園資料 | 含《[科技大觀園網站](https://scitechvista.nat.gov.tw/)》上的科學新知以及科普文章。 |
| iKnow 科技產業資訊室 | 《[科技產業資訊室](https://iknow.stpi.narl.org.tw/)（iKnow）》提供台灣及全球的科技市場趨勢、策略分析、專利知識，及技術交易資訊，專注於科技產業的創新與發展，包含自 2008 年至 2023 年。 |
| 科學發展月刊 | 《[科學發展月刊](https://ejournal.stpi.narl.org.tw/sd)》為國科會為推廣科學教育而出版的科普刊物，含自2004年10月至2020年12月之科普文章；2021年起，以《[科技魅癮](https://www.charmingscitech.nat.gov.tw/)》季刊重新出發，提供國際關注科技議題的新知文章。 |
| 法規資料庫 | 《[法規資料庫](https://law.moj.gov.tw/)》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 |
| 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 |
| 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
| 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
| 童話書 | 共 20 本童話書，含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
| RedPajama-Data-V2 | 從國外開放多國語言語料庫 [RedPajama-Data-v2](https://github.com/togethercomputer/RedPajama-Data) 取出英文資料 |
| MathPile-commercial | 國外開放數學語料庫 [MathPile-commercial](https://hugging-face.cn/datasets/GAIR/MathPile_Commercial) |
| 中文維基百科 | 《[中文維基百科](https://zh.wikipedia.org/zh-tw/%E4%B8%AD%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91)》截至2023年1月所有條目的內容。 |
| github-code-clean | 為 github 開源程式碼資料集，去除unlicense的程式碼和文件。 |
* 微調資料
 * TAIDE團隊訓練llama2系列模型來產生微調資料資料，產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。

# 模型評測
* taide-bench
    * 評測資料
        * 寫文章、寫信、摘要、英翻中、中翻英，共500題
        * 資料連結: [taide-bench](https://hugging-face.cn/datasets/taide/taide-bench)
    * 評測方法
        * gpt4評分
        * 評分程式: [taide-bench-eval](https://github.com/taide-taiwan/taide-bench-eval)
    * 評測分數
| 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
| --- | ----- | ----- | ---- | ---- | ---- | --- |
| Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
| GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
| TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
| LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
| LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
| LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

# 授權條款
* [Llama3-TAIDE 模型社群授權同意書](https://drive.google.com/file/d/12-Q0WWSjG0DW6CqJQm_jr5wUGRLeb-8p/view)

# 免責聲明
* LLM 模型由於設計架構的限制，以及資料難免有偏誤，語言模型的任何回應不代表 TAIDE 立場，使用前需要額外加入安全防護機制，且回應內容也可能包含不正確的資訊，使用者請勿盡信。

# 開發團隊
* [https://taide.tw/index/teamList](https://taide.tw/index/teamList)

# 相關連結
* [TAIDE官網](https://taide.tw/index)
* [TAIDE Huggingface](https://hugging-face.cn/taide)
* [TAIDE Github](https://github.com/taide-taiwan)
* [Kuwa AI](https://kuwaai.org/)

# Citation
* [TAIDE官網](https://taide.tw/index)

Paste, drop or click to upload images (.png, .jpeg, .jpg, .svg, .gif)

cwchang / llama3-taide-lx-8b-chat-alpha1-32k

国家应用研究实验室开发和构建了Llama3-TAIDE模型。此版本使用RoPE缩放扩展到32k。

README

说明

关于GGUF

提供的文件