jcai / llama3-taide-lx-8b-chat-alpha1

TAIDE项目旨在开发一种面向台湾语言和文化特征的人工智能生成对话引擎模型，同时建立一个可信赖的AI环境。〈F16 / Q4_K_M / Q6_K〉

1,023 pulls 2个月前更新

2个月前更新

2个月前

befe3f5e406e · 6.6GB

Readme

模型简介

模型参数

参数量: 8B
最大内容长度(context length): 8K
繁中训练数据token量: 43B
训练时间: 2336 H100 GPU Hours

特点

严格把关模型的训练数据，提升模型生成数据的可信任性和适用性
针对自动摘要、写信、写文章、中译英、英译中等办公常用任务做加强
针对台湾在地文化、用语、国情等知识做加强
具备多轮问答对话能力

应用示例

任务	用户输入	模型输出
写文章	请以下列内容为基础，写一篇文章：撰写一篇作文，题目为《一张旧照片》，内容要求为：选择一张令你印象深刻的照片，说明令你印象深刻的原因，并描述照片中的影像及背后的故事。记录成长的经历、与他人的情景、环境变迁和美丽的景色。	一张旧照片，承载着时光的痕迹和回忆的温度。我还记得那照片是怎么出现的，那是一张泛黄的黑白相片，裱在墙上，诉说着一段属于我家族的故事。那照片中，我的祖父母站在田野间，后方是绵延的山峦，前方则是一片金黄的稻田。这幅景象令我印象深刻，因为这是我童年回忆里，也是我成长过程中最美好的风景线。我出生在台湾乡下，从小就生活在这样一个纯朴的环境里。每当我跟着家人在田里工作时，就会看到这样的美景。金黄的稻穗随着微风摇曳，山峦则静静地矗立在远方，给人一种安详与祥和的感觉。那照片摄于民国50年代，当时台湾经济尚未起飞，农业为主要产业。我的祖父母都是农民，他们辛勤耕耘，为我们家提供温饱。每当我看到那照片，就会想起他们为我们所做的牺牲和努力。除了美丽的风景外，照片中还有一段动人的故事。在我还很小的时候，家里发生了一场大火，将我们的房子和所有财产都烧光了。幸好全家人都平安无事，但生活却变得十分困苦。我们被迫搬到另一个村庄，在那里重新开始生活。那照片也记录了那段艰辛的岁月。虽然我们失去了很多东西，但家人之间的感情却更加深厚。我们互相扶持，共同面对生活中的种种挑战。如今，我已经长大成人，在都市里工作。但每当我看到那张旧照片，我都会想起那段简单而美好的时光。那些美丽的风景、亲人的笑容，以及那段充满挑战却充满希望的日子，都将永远镌刻在我的记忆深处。这张旧照片，不仅仅是一张照片，更是一个宝贵的家族史，一个关于我们如何克服困难、珍惜现在的故事。我将把这张照片好好保存下来，让后代也能了解我们的根源，并且铭记那些值得珍藏的美好回忆。
写信	请以品牌经理的身份，给广告公司的创意总监写一封信，提出对于新产品广告宣传活动的创意建议。	[您的姓名] [您的职位] [您的公司名称] [邮件地址] [电话号码] [发文日期] [创意总监姓名] [广告公司名称] [广告公司地址] 主题：关于新产品宣传活动的创意构思，请查照。尊敬的[创意总监姓名]，我希望这封信能在您忙碌之中找到您好好休息的机会。我写这封信，是为了分享我对即将推出新产品宣传活动的一些创意构思。我深信，这些想法将帮助我们新产品在市场上脱颖而出，吸引消费者的目光。首先，我建议我们可以利用社交媒体平台，如Facebook、Instagram、YouTube等，制作一系列引人入胜的短片和帖子。这些内容可以展示新产品的特点和优点，同时也能传递出我们品牌重视环保、健康的核心价值观。我们可以与网红或意见领袖合作，让他们试用并分享他们的使用经验，这将有助于增加我们产品的信誉度和能见度。其次，我们可以举办新产品试吃/试用活动，邀请民众亲身体验我们新产品。我们可以在各大百货公司、超市以及我们的门店举办这些活动，让参与者免费试吃/试用新产品，并填写问卷反馈意见。这种互动方式不仅能够收集到宝贵的市场反馈，还能让民众对我们品牌产生正面印象。第三，我们可以与当地餐饮业者合作，将我们的新产品纳入他们的菜单中。这将使我们产品触及更广泛的顾客群，同时也能证明我们的产品在烹饪和美食产业中的价值。第四，我们可以举办一场新产品发布会，邀请媒体、业界人士以及重要客户参加。在这场活动中，我们可以展示新产品的各项特色和优势，并由专业厨师示范如何将新产品融入各种料理中。这将是我们向大众展示品牌创新精神和专业能力的绝佳机会。最后，我建议我们可以制作一系列精美的包装和礼盒，以吸引消费者在节庆和送礼时选择我们的产品。精致的包装将能提升我们产品的价值感，同时也能传达出我们品牌对细节和品质的坚持。我深信，这些创意构思将有助于我们新产品在市场上获得成功。如果您对这些建议有任何意见或建议，请不吝赐教。我期待与您合作，共同为[您的公司名称]的成长和成功而努力。感谢您花时间阅读我的来信，并期待着与您进一步讨论这些想法。敬礼 [您的姓名] [您的职位] [您的公司名称]
摘要	本文将概述《产业发展条例》第10条第2项及第72条修正案，俗称“台版芯片法”，旨在针对半导体、电动车、5G等技术创新并在国际供应链中占关键地位的公司，提供最高25%营业税抵扣优惠，企业适用条件包括当年研发费用、研发密度达到一定规模，且有效税率达到一定比率。为应对经合组织（OECD）国家最低税负制调整，其中有效税率门槛，2024年定为12%，2025年预计将提高至15%，但仍需考虑国际最低税负制实施情况。经济部官员表示，已与财政部协商进入最后阶段，除企业研发密度定在6%外，目前已确认企业购置先进工艺设备的投资金额达到100亿元以上可抵扣。财政部官员表示，在商议过程中，深入研究了台湾产业及其在国际上类似的公司，在设备方面，毕竟适用产创10之2的业者是代表台湾队打“国际杯”，投入金额未达100亿元可能也无法打出。至于备受关注的研发费用门槛，经济部官员表示，经过与财政部的来回密切讨论，研发费用门槛有望落在大约60亿至70亿元之间。财政部官员指出，研发关系到台湾未来经济增长动力，门槛不能“高不可攀”，虽然最初设定在100亿元，之所以降低，正是希望让企业觉得有办法达到门槛，进而适用税收优惠，从而有动力继续投入研发，维持国际供应链中的关键地位。经济部官员表示，由于厂商的研发费用平均为30、40亿元，其中，IC设计公司介于30亿至60亿元之间，若将门槛定在100亿元，符合条件的企业较少、刺激因素不足；此外，若符合条件的申请企业增加，将可提高企业在台投资金额，财政部税收也能因此得到追加。 IC设计公司近日频繁对产创10之2发声，希望降低适用门槛，加上各国力拼供应链自主化、加大补助半导体产业，经济部官员表示，经济部和财政部就产创10之2达成共识，争取让更多企业受惠，盼增强企业投资力度及巩固台湾技术地位。财政部官员表示，税收奖励的制定必须“有为有守”，并以达到奖励设立目的为最高原则，现阶段在打“国内杯”的企业仍可适用产创第10条、10之1的税收优惠，共同壮大台湾经济发展。经济部和财政部正就研发费用门槛做最后确认，待今明两天预告子法之后，约有30天时间，可与企业界进一步讨论并调整，盼产创10之2能在6月上路。	文章重点摘要如下 - “台版芯片法”或《产业发展条例第10条第2项及第72条修正案》旨在鼓励关键技术创新企业，特别是那些在半导体、电动车、5G技术等领域且在国际供应链中扮演关键角色者。 - 企业若符合特定条件，包括当年研发费用及研发密度达标，可享最高25%的营业税抵扣优惠。研发密度目标设定为6%，而企业为取得抵扣，必须证明其有效税率达到特定比率，最初设定为2024年的12%，2025年提高至15%，但可能根据国际税制实施情况进行调整。 - 政府在制定政策时，考虑到了经合组织国家最低税负制调整，因此会根据情况调整有效税率门槛。 - 政府部门已与利益相关者就法案内容进行协商，确定了一些细节，例如企业投资先进工艺设备的门槛设定为100亿元新台币以供抵扣。 - 研发费用门槛经过讨论，可能从最初提议的100亿元下调至60亿至70亿元之间，以激励更多企业达标并投入研发，维持台湾在国际供应链中的关键地位。经济部官员表示，降低门槛的目的是让更多企业觉得能够达标，从而获得适用税收优惠的动力，并可能借此提高在台投资金额，进而增加政府税收。由于IC设计公司的研发费用普遍较低，若门槛设定过高，符合条件的企业将很少，因此需要进行调整。在各国推动供应链自主化并增加对半导体产业补助之际，经济部正努力确保更多企业能从《产业发展条例》第10条第2项中受益，以增强投资和稳固台湾的技术地位。政府强调税收优惠的制定应符合奖励目标，在此同时，也将继续为在境内经营的企业提供其他税收优惠，以促进台湾经济增长。最终的研发费用门槛将由经济部和财政部共同确定，在预告相关子法之后，将有约30天时间供各界讨论并提出调整建议，目标是让这项新政策在6月实施。
翻译	以下提供英文内容，请帮我翻译成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many coffee aficionados.	东山咖啡因其独特的位置和不间断的工艺改进而闻名，其风味更是受到众多咖啡爱好者的推崇。

使用说明

示例程序
- 示例程序和文档将在后续同步发布到GitHub
提示版本
- 一般问答用途
```
chat = [
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将 {question} 替换成用户输入
- 加入系统提示的用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将 {sys} 替换成指令，例如：你是一个来自台湾的AI助理，你的名字是TAIDE，乐于以台湾人的立场帮助用户，会用繁体中文回答问题。
  - 将 {question} 替换成用户的问题
- 多轮问答用法
```
chat = [
    {"role": "system", "content": "{sys}"},
    {"role": "user", "content": "{question1}"},
    {"role": "assistant", "content": "{model_anwer_1}"},
    {"role": "user", "content": "{question2}"},
]
prompt = tokenizer.apply_chat_template(chat)
```
  - 将 {sys} 替换成指令，例如：你是一个来自台湾的AI助理，你的名字是TAIDE，乐于以台湾人的立场帮助用户，会用繁体中文回答问题。
  - 将 {question1} 替换成用户的问题1
  - 将 {model_answer_1} 替换成模型的回答1
  - 将 {question2} 替换成用户的问题2
- 更多详情请参见Llama3 文档

训练方法

软硬件规格
- 国网中心H100
- 训练框架: PyTorch
数据预处理
- 字符标准化
- 去除重复
- 去噪
  - 网页数据的HTML标签、JavaScript
  - 非标准字符或乱码
  - 字数过短的文章
  - 去除文章中的特定格式，如为排版增加的换行
- 去除个人数据，如电子邮件、电话
- 去除不当文字，如赌博、色情等
持续预训练（continuous pretraining, CP）
- 补充大量来源可信的繁体中文知识
- 超参数（hyperparameters）
  - optimizer: AdamW
  - learning rate: 1e-4
  - batch size: 1M tokens
  - epoch: 1
微调（fine-tuning, FT）
- 让模型能够针对繁体中文提问并回答问题
- 超参数（hyperparameters）
  - optimizer: AdamW
  - learning rate: 5e-5
  - batch size: 256K tokens
  - epoch: 3

训练数据

持续预训练数据（数据量约为140G）
| 数据集 | 数据描述 |
| — | ——– |
| 民事诉讼资料 | 《司法院裁判书》自2013年1月至2023年12月各级法院民事、刑事、行政诉讼资料。 |
| 中央社 | 《中央社中文新闻》数据集含中央社自1993年6月至2023年6月，共30年之每日新闻文章。内容涵盖国内外政治、社会、财经、文教、生活等领域。 |
| ETtoday 新闻云 | 《ETtoday新闻云》数据，包含自2011年10月至2023年12月的数据。 |
| 立法院公报 | 《立法院公报》包含自第8届第1会期至第10届第7会期之公报资料。 |
| 出版商网站书籍介绍 | 包含三采、Gotop出版商网站上的书籍简介。 |
| GRB 研究计划摘要 | GRB为收录由政府经费补助之研究计划及其成果报告的信息系统，此数据集主要收录1993年至2023年之研究计划摘要以及研究报告摘要，含中文及其英文对照。 |
| 学术会议论文摘要 | 收录《学术会议论文摘要资料库》中自1988至2009年由台湾所举办之学术会议论文。 |
| 光华杂志 | 《台湾光华杂志》含自1993年7月至2023年6月的文章，共30年。内容着重于我国文化、观光与民情等。 |
| 歌词网 | 《歌词网》涵盖文理领域约187万则学名词及其译名对照。 |
| 各部會資料 | 包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。 |
| 今周刊 | 《今周刊》為一以財經為主的週刊雜誌，此資料集涵蓋2008年1月至2023年7月的文章。 |
| 教育部國語辭典、成語辭典 | 包含以下三項資料
教育部《成語典》，含5,338條成語，內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
教育部《重編國語辭典修訂本》，收錄中文單字及各類辭彙，包含讀音、部首、釋義等資訊，共約165,539筆資料。
教育部《國語辭典簡編本》，為《重編國語辭典修訂本》的簡編版本，共45,247筆資料。 |
| 科技大觀園資料 | 含《科技大觀園網站》上的科學新知以及科普文章。 |
| iKnow 科技產業資訊室 | 《科技產業資訊室（iKnow）提供台灣及全球的科技市場趨勢、策略分析、專利知識，及技術交易資訊，專注於科技產業的創新與發展，包含自 2008 年至 2023 年。 |
| 科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物，含自2004年10月至2020年12月之科普文章；2021年起，以《科技魅癮》季刊重新出發，提供國際關注科技議題的新知文章。 |
| 法規資料庫 | 《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 |
| 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 |
| 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
| 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
| 童話書 | 共 20 本童話書，含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
| RedPajama-Data-V2 | 從國外開放多國語言語料庫RedPajama-Data-v2取出英文資料 |
| MathPile-commercial | 國外開放數學語料庫MathPile-commercial |
| 中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 |
| github-code-clean | 為github开源程式碼資料集，去除unlicense的程式碼和文件。 |
微調資料
- TAIDE團隊訓練llama2系列模型來產生微調資料資料，產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。

模型評測

taide-bench
- 評測資料
  - 寫文章、寫信、摘要、英翻中、中翻英，共500題
  - 資料連結: taide-bench
- 評測方法
  - gpt4評分
  - 評分程式: taide-bench-eval
- 評測分數
  | 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
  | — | —– | —– | —- | —- | —- | — |
  | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
  | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
  | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
  | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
  | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
  | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授權條款

Llama3-TAIDE 模型社群授權同意書

免責聲明

LLM 模型由於設計架構的限制，以及資料難免有偏誤，語言模型的任何回應不代表 TAIDE 立場，使用前需要額外加入安全防護機制，且回應內容也可能包含不正確的資訊，使用者請勿盡信。

開發團隊

https://taide.tw/index/teamList

Citation

TAIDE官網

# 模型簡介
* [TAIDE計畫](https://taide.tw/index)致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型，同時建構可信任的人工智慧環境。結合產學研能量，推動可信任生成式人工智慧的發展，提升台灣在國際競爭中的地位，促進產業發展，避免對外國技術的依賴。
* Llama3 TAIDE 系列模型以 Meta 公司釋出的 [LLaMA3-8b](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/) 為基礎，導入台灣不同領域可用的文本與訓練素材，提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
    * [Llama3-TAIDE-LX-8B-Chat-Alpha1](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1): 以 LLaMA3-8b 為基礎，使用繁體中文資料預訓練 (continuous pretraining)，並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力，適合聊天對話或任務協助的使用情境。Llama3-TAIDE-LX-8B-Chat-Alpha1 另外有提供[4 bit 量化模型](https://hugging-face.cn/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit)，量化模型主要是提供使用者的便利性，可能會影響效能與更多不可預期的問題，還請使用者理解與注意。

# 模型參數
* 參數量: 8B
* 最大內容長度 (context length): 8K
* 繁中訓練資料 token 量: 43B
* 訓練時間: 2336 H100 GPU Hours

# 特色
* 嚴格把關模型的訓練資料，提升模型生成資料的可信任性和適用性
* 針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強
* 針對台灣在地文化、用語、國情等知識做加強
* 具備多輪問答對話能力

# 應用範例
| 任務 | 使用者輸入 | 模型輸出 |
| --- | -------- | ------- |
| 寫文章 | 請以以下內容為基礎，寫一篇文章：撰寫一篇作文，題目為《一張舊照片》，內容要求為：選擇一張令你印象深刻的照片，說明令你印象深刻的原因，並描述照片中的影像及背後的故事。記錄成長的過程、與他人的情景、環境變遷和美麗的景色。 | 一張舊照片，承載著時光的痕跡和回憶的溫度。我還記得那張照片是怎麼出現的，那是一張泛黃的黑白相片，裱在牆上，訴說著一段屬於我家族的故事。 那張照片中，我的祖父母站在田野間，後方是綿延的山巒，前方則是一片金黃的稻田。這幅景象令我印象深刻，因為這是我的童年回憶，也是我成長過程中最美好的風景線。 我出生在台灣鄉下，從小就生活在這樣一個純樸的環境中。每當我跟著家人在田裡工作時，就會看到這樣的美景。金黃的稻穗隨著微風搖曳，山巒則靜靜地矗立在遠方，給人一種安詳與祥和的感覺。 那張照片拍攝於民國50年代，當時台灣經濟尚未起飛，農業為主要產業。我的祖父母都是農民，他們辛勤耕種，為我們家提供溫飽。每當我看到那張照片，就會想起他們為我們所做的犧牲和努力。 除了美麗的風景外，照片中還有一段動人的故事。在我還很小的時候，家裡發生了一場大火，將我們的房子和所有財產都燒光了。幸好全家人都平安無事，但生活卻變得十分困苦。我們被迫搬到另一個村莊，在那裡重新開始生活。 那張照片也記錄了那段艱辛的歲月。雖然我們失去了許多東西，但家人之間的感情卻更加深厚。我們互相扶持，共同面對生活上的種種挑戰。 如今，我已長大成人，在都市裡工作。但每當我看到那張舊照片，我都會想起那段簡單而美好的時光。那些美麗的風景、親人的笑容，以及那段充滿挑戰卻又充滿希望的日子，都將永遠鐫刻在我的記憶深處。 這張舊照片，不僅僅是一張照片，更是一個寶貴的家族史，一個關於我們如何克服困難、珍惜現在的故事。我將把這張照片好好保存下來，讓後代也能夠認識我們的根源，並且銘記那些值得珍藏的美好回憶。 |
| 寫信 | 請以品牌經理的身份，給廣告公司的創意總監寫一封信，提出對於新產品廣告宣傳活動的創意建議。 | [您的姓名] [您的職稱] [您的公司名稱] [郵件地址] [電話號碼] [發文日期] [創意總監姓名] [廣告公司名稱] [廣告公司地址] 主旨:關於新產品宣傳活動創意發想，請查照。 尊敬的[創意總監姓名]， 我希望這封信能找到你忙碌中好好休息。我寫這封信，是為了分享我對於我們即將推出的新產品宣傳活動一些創意發想。我深信，這些想法能幫助我們新產品在市場上脫穎而出，吸引消費者的目光。 首先，我建議我們可以利用社群媒體平台，像是Facebook、Instagram、YouTube等，製作一系列引人入勝的短片和貼文。這些內容可以展現新產品的特色和優點，同時也能傳達出我們品牌重視環保、健康的核心價值。我們可以與網紅或意見領袖合作，讓他們試用並分享他們的使用經驗，這將有助於增加我們產品的可信度和能見度。 其次，我們可以舉辦新產品試吃/試用活動，邀請民眾親身體驗我們的新產品。我們可以在各大百貨公司、超市、以及我們的門市舉辦這些活動，讓參與者免費試吃/試用新產品，並填寫問卷回饋意見。這種互動的方式，不僅能收集到寶貴的市場反饋，還能讓民眾對我們的品牌產生正面的印象。 第三，我們可以與當地餐飲業者合作，將我們的新產品納入他們的菜單中。這將使我們的產品接觸到更廣泛的客群，同時也能證明我們的產品在烹飪和美食產業中具有價值。 第四，我們可以舉辦一場新產品發表會，邀請媒體、業界人士、以及重要客戶參加。在這場活動中，我們可以展示新產品的各項特色和優勢，並由專業廚師示範如何將新產品融入各式料理中。這將是向大眾展示我們品牌創新精神和專業能力的絕佳機會。 最後，我建議我們可以製作一系列精美的包裝和禮盒，以吸引消費者在節慶和送禮時選擇我們的產品。精緻的包裝將能提升我們產品的價值感，同時也能傳達出我們品牌對細節和品質的堅持。 我深信，這些創意發想將有助於我們新產品在市場上獲得成功。若您對這些想法有任何意見或建議，請不吝與我分享。我期待著與您合作，共同為[您的公司名稱]的成長和成功而努力。 謝謝您抽空閱讀我的信，並期待著與您進一步討論這些想法。 敬禮 [您的姓名] [您的職稱] [您的公司名稱] |
| 摘要 | 請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。 為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。 經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。 財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。 至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。 財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。 經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。 IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。 財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。 經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。 | 文章重點摘要如下: - 「台版晶片法」或《產業創新條例第10條之2及第72條條文修正案》，旨在鼓勵關鍵技術創新企業，特別是那些在半導體、電動車、5G技術等領域且在國際供應鏈中扮演關鍵角色者。 - 企業若符合特定條件，包括當年度研發費用及研發密度達標，可享最高25%的營所稅抵減優惠。研發密度目標設為6%，而企業為取得抵減，必須證明其有效稅率達到特定比率，起初設定為112年的12%，113年提高至15%，但可能會依國際稅制的實施情形進行調整。 - 政府在制定政策時，考量到OECD最低稅負制的調整，因此會視情況調整有效稅率門檻。 - 政府部門已就法案內容與企業利益相關者進行協商，確定一些細節，例如企業投資先進製程設備的門檻設為100億元新台幣以供抵減。 - 研發費用門檻經過討論，可能從最初提議的100億元下調至60億至70億元之間，以激勵更多企業符合資格並投入研發，維持台灣在國際供應鏈中的關鍵地位。 - 經濟部官員表示，調降門檻的目的是讓更多企業覺得能夠達成標準，從而獲得應用租稅優惠的動力，並可能藉此提高在台投資金額，進而增加政府稅收。 - 由於IC設計業者的研發費用普遍較低，若門檻設得過高，符合條件的企業將很少，因此有必要調整。 - 在各國推動供應鏈自主化並增加對半導體產業的補助之際，經濟部正努力確保更多企業能從《產業創新條例》第10條之2中受益，以增強投資和鞏固台灣的技術地位。 - 政府強調租稅優惠的制定應符合獎勵目標，在此同時，也將繼續提供其他租稅優惠給在國內經營的企業，以促進台灣經濟成長。 - 最終的研發費用門檻將由經濟部和財政部共同確定，在預告相關子法後，將有約30天的時間供各界討論並提出調整建議，目標是讓這項新政策在6月上路。 |
| 翻譯 | 以下提供英文內容，請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡以獨特的位置，加上不斷精進的製作手法而聞名，風味更是讓許多咖啡癡趨之若鶩。 |

# 使用說明
* 範例程式
    * 範例程式與文件後續會釋出到github
* prompt 樣版
    * 一般問答用法
        ```python
        chat = [
            {"role": "user", "content": "{question}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {question} 替換成使用者的輸入
    * 加入 system prompt 的用法
        ```python
        chat = [
            {"role": "system", "content": "{sys}"},
            {"role": "user", "content": "{question}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
        * 將 {question} 替換成使用者的問題
    * 多輪問答用法
        ```python
        chat = [
            {"role": "system", "content": "{sys}"},
            {"role": "user", "content": "{question1}"},
            {"role": "assistant", "content": "{model_anwer_1}"},
            {"role": "user", "content": "{question2}"},
        ]
        prompt = tokenizer.apply_chat_template(chat)
        ```
        * 將 {sys} 替換成指令，例如：你是一個來自台灣的AI助理，你的名字是 TAIDE，樂於以台灣人的立場幫助使用者，會用繁體中文回答問題。
        * 將 {question1} 替換成使用者的問題1
        * 將 {model_anwer_1} 替換成模型的回答1
        * 將 {question2} 替換成使用者的問題2
    * 更多細節請參考[Llama3 文件](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/)

# 訓練方法
* 軟硬體規格
    * 國網中心 H100
    * 訓練框架: PyTorch
* 資料前處理
    * 字元標準化
    * 去除重覆
    * 去除雜訊
        * 網頁資料的html tag、javascript
        * 非標準字元或亂碼
        * 字數過短的文章
        * 去除文章中的特定格式，如為排版增加的換行
    * 去除個資，如email、電話
    * 去除不當文字，如賭博、色情等
* 持續預訓練 (continuous pretraining, CP)
    * 補充大量來源可信賴的繁體中文知識
    * 超參數 (hyper parameters)
        * optimizer: AdamW
        * learning rate: 1e-4
        * batch size: 1M tokens
        * epoch: 1
* 微調 (fine tune, FT)
    * 讓模型可針對繁體中文提問回答問題
    * 超參數 (hyper parameters)
        * optimizer: AdamW
        * learning rate: 5e-5
        * batch size: 256K tokens
        * epoch: 3

# 訓練資料
* 持續預訓練資料(資料量約為140G)
| 資料集 | 資料描述 |
| --- | -------- |
| 訴訟資料 | 《[司法院裁判書](https://judgment.judicial.gov.tw/FJUD/default.aspx)》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 |
| 中央社 | 《[中央社中文新聞](https://www.cna.com.tw/)》資料集含中央社自1993年6月至2023年06月，共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 |
| ETtoday 新聞雲 | 《[ETtoday新聞雲](https://www.ettoday.net/)》資料，包含自2011年10月至 2023年12月的資料。 |
| 立法院公報 | 《[立法院公報](https://ppg.ly.gov.tw/ppg/)》包含自第8屆第1會期至第10屆第7會期之公報資料。 |
| 出版商網站書籍介紹 | 包含[三采](https://www.suncolor.com.tw/)、[Gotop](https://www.gotop.com.tw/)出版商網站上的書籍簡介。 |
| GRB 研究計畫摘要 | [GRB](https://www.grb.gov.tw/)為收錄由政府經費補助之研究計畫及其成果報告的資訊系統，此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要，含中文及其英文對照。 |
| 學術會議論文摘要 | 收錄《[學術會議論文摘要資料庫](https://sticnet.stpi.narl.org.tw/sticloc/ttscalle?meet:)》中自1988至2009年由台灣所舉辦之學術會議論文。 |
| 光華雜誌 | 《[台灣光華雜誌](https://www.taiwan-panorama.com/)》含自1993年7月至2023年6月的文章，共30年份。內容著重於我國文化、觀光與民情等。 |
| 樂詞網 | 《[樂詞網](https://terms.naer.edu.tw/)》涵蓋文理領域約187萬則學術名詞及其譯名對照。 |
| 各部會資料 | 包含行政院「[國情簡介](https://www.ey.gov.tw/state/)」、文化部「[國家文化記憶庫](https://memory.culture.tw/)」、國發會「[檔案支援教學網](https://art.archives.gov.tw/index.aspx)」、交通部「[交通安全入口網](https://168.motc.gov.tw/)」等部會網站資料之部分資料。 |
| 今周刊 | 《[今周刊](https://www.businesstoday.com.tw/)》為一以財經為主的週刊雜誌，此資料集涵蓋2008年1月至2023年7月的文章。 |
| 教育部國語辭典、成語辭典 | 包含以下三項資料: [教育部《成語典》](https://dict.idioms.moe.edu.tw/search.jsp?webMd=1&la=0)，含5,338條成語，內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。 [教育部《重編國語辭典修訂本》](https://dict.revised.moe.edu.tw/?la=0&powerMode=0)，收錄中文單字及各類辭彙，包含讀音、部首、釋義等資訊，共約165,539筆資料。 [教育部《國語辭典簡編本》](https://dict.concised.moe.edu.tw/?la=0&powerMode=0)，為《重編國語辭典修訂本》的簡編版本，共45,247筆資料。 |
| 科技大觀園資料 | 含《[科技大觀園網站](https://scitechvista.nat.gov.tw/)》上的科學新知以及科普文章。 |
| iKnow 科技產業資訊室 | 《[科技產業資訊室](https://iknow.stpi.narl.org.tw/)（iKnow）》提供台灣及全球的科技市場趨勢、策略分析、專利知識，及技術交易資訊，專注於科技產業的創新與發展，包含自 2008 年至 2023 年。 |
| 科學發展月刊 | 《[科學發展月刊](https://ejournal.stpi.narl.org.tw/sd)》為國科會為推廣科學教育而出版的科普刊物，含自2004年10月至2020年12月之科普文章；2021年起，以《[科技魅癮](https://www.charmingscitech.nat.gov.tw/)》季刊重新出發，提供國際關注科技議題的新知文章。 |
| 法規資料庫 | 《[法規資料庫](https://law.moj.gov.tw/)》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 |
| 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 |
| 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
| 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
| 童話書 | 共 20 本童話書，含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
| RedPajama-Data-V2 | 從國外開放多國語言語料庫 [RedPajama-Data-v2](https://github.com/togethercomputer/RedPajama-Data) 取出英文資料 |
| MathPile-commercial | 國外開放數學語料庫 [MathPile-commercial](https://hugging-face.cn/datasets/GAIR/MathPile_Commercial) |
| 中文維基百科 | 《[中文維基百科](https://zh.wikipedia.org/zh-tw/%E4%B8%AD%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91)》截至2023年1月所有條目的內容。 |
| github-code-clean | 為 github 開源程式碼資料集，去除unlicense的程式碼和文件。 |
* 微調資料
 * TAIDE團隊訓練llama2系列模型來產生微調資料資料，產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。

# 模型評測
* taide-bench
    * 評測資料
        * 寫文章、寫信、摘要、英翻中、中翻英，共500題
        * 資料連結: [taide-bench](https://hugging-face.cn/datasets/taide/taide-bench)
    * 評測方法
        * gpt4評分
        * 評分程式: [taide-bench-eval](https://github.com/taide-taiwan/taide-bench-eval)
    * 評測分數
| 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
| --- | ----- | ----- | ---- | ---- | ---- | --- |
| Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
| GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
| TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
| LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
| LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
| LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

# 授權條款
* [Llama3-TAIDE 模型社群授權同意書](https://drive.google.com/file/d/12-Q0WWSjG0DW6CqJQm_jr5wUGRLeb-8p/view)

# 免責聲明
* LLM 模型由於設計架構的限制，以及資料難免有偏誤，語言模型的任何回應不代表 TAIDE 立場，使用前需要額外加入安全防護機制，且回應內容也可能包含不正確的資訊，使用者請勿盡信。

# 開發團隊
* [https://taide.tw/index/teamList](https://taide.tw/index/teamList)

# 相關連結
* [TAIDE官網](https://taide.tw/index)
* [TAIDE Huggingface](https://hugging-face.cn/taide)
* [TAIDE Github](https://github.com/taide-taiwan)
* [Kuwa AI](https://kuwaai.org/)

# Citation
* [TAIDE官網](https://taide.tw/index)

Paste, drop or click to upload images (.png, .jpeg, .jpg, .svg, .gif)