LLama3-TAIDE 模型是由国家应用研究实验室开发和构建的。

8B

979 拉取 最近更新7周前

README

描述

本仓库包含用于Llama3-TAIDE-LX-8B-Chat-Alpha1的GGUF格式模型文件。

关于GGUF

GGUF是由llama.cpp团队于2023年8月21日引入的一种新格式,它替代了不再被llama.cpp支持的GGML。

提供的文件

名称 量化方法 比特 大小 用途
Llama3-TAIDE-LX-8B-Chat-Alpha1-GGUF.Q5_K_M.gguf Q5_K_M 5 5.73 GB 大,质量损失非常低
Llama3-TAIDE-LX-8B-Chat-Alpha1-GGUF.Q6_K.gguf Q6_K 6 6.6 GB 非常大,质量损失极低

原始模型卡片


模型简介

  • TAIDE计划致力于开发符合台湾语言和文化特性的生成式人工智能对话引擎模型,同时构建可信赖的人工智能环境。结合产学研力量,推动可信赖生成式人工智能的发展,提升台湾在国际竞争中的地位,促进产业发展,避免对外国技术的依赖。
  • Llama3 TAIDE系列模型以Meta公司发布的LLaMA3-8b为基础,引入台湾不同领域可用的文本和训练素材,提高模型在正体中文回应的能力和特定任务的表现。公开发布的模型如下
    • Llama3-TAIDE-LX-8B-Chat-Alpha1:以LLaMA3-8b为基础,使用繁体中文数据进行预训练(连续预训练),并通过指令微调(instruction tuning)强化办公常用任务和多轮问答对话能力,适用于聊天对话或任务协助的使用场景。Llama3-TAIDE-LX-8B-Chat-Alpha1还提供了4 bit 量化模型,量化模型主要是提供用户的便利性,可能会影响性能和更多不可预期的问题,还请用户理解和注意。

模型参数

  • 参数量: 8B
  • 最大内容长度 (content length): 8K
  • 繁中文本训练数据token量: 43B
  • 训练时间: 2336 H100 GPU Hours

特点

  • 严格把关模型的训练数据,提升模型生成数据的可信任性和适用性
  • 针对自动摘要、写信、写文章、中翻英、英翻中等办公常用任务做加强
  • 针对台湾当地文化、用语、国情等知识做加强
  • 具有多轮问答对话能力

应用案例

任务 用户输入 模型输出
写文章 请以下内容为基础,写一篇文章:写一篇作文,题目为《一张旧照片》,内容要求为:选择一张令你印象深刻的照片,说明令我印象深刻的原因,并描述照片中的影像及背后的故事。记录成长的过程、与他人的场景、环境变迁和美丽的景色。 一张旧照片,承载着时光的痕迹和回忆的温度。我还记得那照片是如何出现的,那是一张泛黄的黑白照片,裱在墙上,诉说着我家族的故事。

那照片中,我的祖父母站在田野间,后方是绵延的山峦,前方则是一片金黄的稻田。这幅景象令我印象深刻,因为这是我的童年回忆,也是我成长过程中最美好的风景线。

我出生在台湾乡下,从小就生活在这样一个纯朴的环境中。每当我和家人在田里工作时,就会看到这样的美景。金黄的稻穗随着微风摇曳,山峦则静静地矗立在远方,给人一种安详与祥和的感觉。

那照片拍摄于民国50年代,当时台湾经济尚未起飞,农业为主要产业。我的祖父母都是农民,他们辛勤耕种,为我们家提供温饱。每当我看到那张照片,就会想起他们为我们所做的牺牲和努力。

除了美麗的風景外,照片中還蘊含著一段動人的故事。在我還很小的時候,家裡遭受火災,我們的房子和所有財產都被燒完了。幸運的是,全家人都安然無恙,但生活變得非常困難。我們被迫搬到另一個村莊,在那裡重新開始生活。

那張照片也紀錄了我們艱苦的時光。雖然我們失去了許多東西,但家人之間的感情反而更加深厚。我們互相幫助,共同面對生活中的各種挑戰。

如今,我已經長大了,在都市裡工作。但每當我看到那張舊照片,我都會想起那段簡單而美好的時光。那些美麗的風景、親人的笑容,以及那段充滿挑戰卻又充滿希望的日子,都將永遠留在我的記憶中。

這張舊照片,不僅僅是一張照片,更是我們家族珍貴歷史的記載,也是我們如何應對困難、珍惜現在的故事。我會好好保存這張照片,讓後代也能了解我們的根源,並夾藏那些值得珍惜的美好回憶。
寫信 請以品牌經理的身份,給廣告公司的創意總監寫一封信,提供新產品廣告宣傳活動的創意建議。 [您的姓名]
[您的職稱]
[您的公司名稱]
[郵件地址]
[電話號碼]
[發文日期]

[創意總監姓名]
[廣告公司名稱]
[廣告公司地址]

主旨:關於新產品宣傳活動創意發想,請查照。

尊敬的[創意總監姓名],

希望這封信能在你忙碌的的一天中帶來片刻的休息。我寫這封信,是為了分享我對我們即將推出的新產品廣告宣傳活動的創意建議。我相信,這些想法能幫助我們的新產品在市場上脫穎而出,吸引消費者的注意。

首先,我建議我們可以利用社群媒體平台,如Facebook、Instagram、YouTube等,制作一系列吸引人的短片和貼文。這些內容可以展示新產品的特色和優點,同時傳遞出我們品牌關注環保、健康的核心理念。我們可以與網紅或意見領袖合作,讓他們親自使用並分享使用體驗,以此增加我們產品的可信度和知名度。

其次,我們可以舉辦新產品試吃/試用活動,邀請消費者親自體驗我們的新產品。我們可以在各大百貨公司、超市以及我們的門市舉辦這些活動,讓參與者免費試吃/試用新產品,並填寫問卷反饋意見。這種互動方式不僅能獲得寶貴的市場反饋,還能讓消費者對我們的品牌產生良好的印象。

第三,我們可以與當地餐飲業者合作,將我們的新產品加入他們的餐單。這將讓我們的產品接觸到更廣泛的客群,同時也能證明我們的產品在烹飪和美食產業中的價值。

第四,我們可以舉辦一場新品發布會,邀請媒體、業界人士和關鍵客戶參加。在這場活動中,我們可以展示新產品的特色和優勢,並由專業廚師示範如何將新產品融入不同的料理中。這將是一個展示我們品牌創新精神和專業能力的絕佳機會。

最後,我建議我們可以製作一系列精美的包裝和禮盒,在節慶和禮物的場合中吸引消費者選擇我們的產品。精緻的包裝能夠提升產品的價值感,同時也傳達了品牌對細節和质量的堅持。

我相信,這些創意建議將幫助我們新產品在市場上獲得成功。如果您有任何意見或建議,請不吝與我分享。我期待與您合作,共同為[您的公司名稱]的成長和成功而努力。

感謝您抽閒閱讀我的來信,並期待著與您進一步討論這些想法。

敬禮

[您的姓名]
[您的職稱]
[您的公司名稱]
摘要 「台版晶片法」,即《產業創新條例第10條之2及第72條條文修正案》,針對半導體、電動汽車、5G等技術創新且在國際供應鏈中具關鍵地位的公司,提供最高25%的營業稅抵扣優惠。企業適用條件包括年度研發費用達標以及研發密度達到一定規模,且有效稅率達到一定比例。
為應對經濟合作暨發展組織(OECD)最低稅負制動態,其中有效稅率門檻,從112年的12%預計上升至113年的15%,但可能會根據國際最低稅負制實施情況進行調整。
經濟部官員表示,與財政部協商已進入最後階段,除了將企業研發密度設定為6%已確認外,確認企業購置先進製程設備投資金額達100億元以上可享受抵扣。
財政部官員表示,在研究過程中,深入研究了與台灣產業類似國際公司,在設備方面,適用產創10之2的業者是代表台灣在國際比賽中角逐「國際盃」,而投資金額不達100億元可能無法贏得比賽。
關於受关注的研發費用門檻,經濟部官員表示,經過與財政部密切討論,研發費用門檻預計落在60億至70億元之間。
財政部官員指出,研發關係到台灣未來經濟成長動能,門檻不能「高不可攀」,最初設定在100億元,之所以降低,是為了讓企業感受到達到門檻的可行性,並以他們獲得租稅優惠的動力來持續投入研發,保持國際供應鏈中的關鍵地位。
經濟部官員表示,因為廠商研發费用平均為30、40億元,其中,IC設計業者的研發費用介於30億至60億元範圍內,如果门槛設定得太高,符合條件的企業較少,刺激誘因不足;此外,如果符合申請條件的企業增加,將可以提高企業在台投資金額,從而增加國庫稅收。
IC設計業者在近期不斷對產創10之2發聲,希望降低適用門檻,加上各國爭奪供應鏈自主化、加大補貼半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,力争讓更多業界受益,以強化企業投資能力和固台灣技術地位。
財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達成獎勵設置目的為最高原則,目前階段,在國內經營的企業仍可適用產創第10條、第10之1的租稅優惠,共同促進台灣經濟發展。
經濟部和財政部正進行研發費用門檻的最後確認,預計在今明兩天公布子法後,將有約30天的時間與業界進一步討論和調整,預計產創10之2能在6月份實施。
文章重點摘要如下:

- 「台版晶片法」或《產業創新條例第10條之2及第72條條文修正案》,旨在鼓勵關鍵技術創新企業,尤其是那些在半導體、電動汽車、5G技術等領域,並在國際供應鏈中扮演關鍵角色者。

- 企業若符合特定條件,包括年度研發費用和研發密度達標,則可享受最高25%的營業稅抵扣優惠。研發密度目標設為6%,而企業為獲得抵扣,必須證明他們的有效稅率達到特定比例,原設定的為112年的12%,113年提高至15%,但可能會根據國際稅制實施情況進行調整。

- 為應對OECD最低稅負制動態,政府將視情況調整有效稅率門檻。

- 政府部門已就法案與企業利益相關方進行協商,確定了帶來的具體優惠,例如投入先進製程設備的投資金額達100億元以上可獲得抵扣。

- 隨著研發費用門檻的討論,可能從最初100億元的建議降至60億至70億元之間,以激勵更多企業符合資格並投入研發,保持台灣在國際供應鏈中的關鍵地位。

- 經濟部官員指出,下降門檻的目的是讓更多企業相信自己可以達到標準,並從獲得租稅優惠的動力中獲得經濟利益,並可能提高在台灣的投資金額,從而增加國庫稅收。

- 由於IC設計業者的研發費用普遍較低,如果門檻設定得太高,符合條件的企业將會較少,因此有必要進行調整。

- 在各國推動供應鏈自主化和增加對半導體產業的補貼時,經濟部正努力確保更多企業能從《產業創新條例》第10條之2中受益,以增強投資和鞏固台灣的技術地位。

- 政府強調租稅優惠的制定必須符合獎勵目標,在此同時,也將繼續為在國內經營的企業提供其他租稅優惠,以促進台灣經濟成長。

- 最後的研發費用門檔將由經濟部和財政部共同確定,在公布相關子法後,將有約30天的時間供各界討論和提出調整建議,目標是讓這項新政策在6月實施。
翻譯 Dongshan coffee is famous for its unique location, and the constant refinement of production methods. The flavor is admired by many coffee aficionados. 東山咖啡以其獨特的位置加上不斷精進的生產技術而聞名,其風味更是許多咖啡愛好者的所愛。

使用說明

  • 範例程式

    • 範例程式與文件將會分發到github
  • prompt版本

    • 一般問答用法

      
      chat = [
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 將{question}替代為使用者的輸入
    • 加入system prompt的用法

      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 將{sys}替代為指挥,例如:你是一個來自台灣的AI助手,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會用繁體中文回答問題。
      • 將{question}替代為使用者的問題
    • 多輪問答用法

      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question1}"},
          {"role": "assistant", "content": "{model_anwer_1}"},
          {"role": "user", "content": "{question2}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 將{sys}替代為指挥,例如:你是一個來自台灣的AI助手,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會用繁體中文回答問題。
      • 將{question1}替代為使用者的問題1
      • 將{model_anwer_1}替代為模型的回答1
      • 將{question2}替代為使用者的問題2
    • 更多詳細信息請參考Llama3 文件

      訓練方法

  • 軟硬體規格

    • 國網中心 H100
    • 訓練框架: PyTorch
  • 資料前處理

    • 字元標準化
    • 去除重覆
    • 去除雜訊
      • 網頁資料的html tag、javascript
      • 非標準字元或亂碼
      • 文字過短的文章
      • 去除文章中的特定格式,如為排版增加的換行
    • 去除個資,如電子郵件、電話
    • 去除不當文字,如賭博、色情等
  • 持續預訓練 (CP)

    • 補充大量來源可信賴的繁體中文知識
    • 超參數
      • optimizer: AdamW
      • 學習率: 1e-4
      • 批大小: 1M tokens
      • 輪數: 1
  • 微調 (FT)

    • 讓模型可以針對繁體中文提問回答問題
    • 超參數
      • optimizer: AdamW
      • 學習率: 5e-5
      • 批大小: 256K tokens
      • 輪數: 3

訓練資料

  • 持續預訓練資料(資料量約為140G)
    | 資料集 | 資料描述 |
    | — | ——– |
    | 詞訴資料 | 《司法院裁決書》自2013年1月至2023年12月各级法院民事、刑事、行政訴訟資料。 |
    | 中央社 | 《中央社中文新聞》資料集含中央社自1993年6月至2023年06月,共30年之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 |
    | ETtoday 新聞雲 | 《ETtoday新聞雲》資料,包含自2011年10月至2023年12月的資料。 |
    | 立法院公報 | 《立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。 |
    | 出品商網站書籍介紹 | 包含三采Gotop出品商網站的書籍簡介。 |
    | GRB 研究計劃摘要 | GRB是收錄政府經費補助的研究計劃及其成果報告的資訊系統,此資料集主要收錄1993年至2023年的研究計劃摘要以及研究報告摘要,包括中文及其英文對照。 |
    | 研討會論文摘要 | 收錄《研究會論文摘要資料庫》中自1988至2009年台灣舉辦的研究會論文。 |
    | 光華雜誌 | 《台灣光華雜誌》包含自1993年7月至2023年6月的文章,共30年,內容著重於我國文化、觀光與民情等。 |
    | 歡樂詞網 | 《樂詞網》涵蓋文理科領域約187萬則學術名詞及其譯名對照。 |
    | 各部會資料 | 包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料的部分資料。 |
    | 雲端周刊 | 《雲端周刊》是一份以財經為主的週刊雜誌,此資料集涵蓋2008年1月至2023年7月的文章。 |
    | 教育部國語辭典、成語辭典 | 包含以下三項資料
    教育部《成語典》,含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
    教育部《重編國語辭典修訂本》,收錄中文單字及各類詞彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。
    教育部《國語辭典簡編本》,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。 |
    | 科創大觀園資料 | 含《科創大觀園網站》上的科學新知以及科普文章。 |
    | iKnow 科技產業資訊室 | 《科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策展分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自2008年至2023年。 |
    | 科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月的科普文章;2021年起,以《科技魅癮》季刊重新出發,提供關注國際科技議題的新知文章。 |
    | 法規資料庫 | 《法規資料庫》含自112年10月各政府部門最新發布的中央法規、行政規則、法規命令草案及地方自治法規等。 |
    | 各地政府旅遊網 | 涵蓋台灣部分縣市政府觀光旅遊網站的部資料。 |
    | 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
    | 中新社譯名檔資料庫 | 《中新社譯名檔資料庫》收集中新社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
    | 童話書 | 共20本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
    | RedPajama-Data-V2 | 從國外開放多國語言語料庫 RedPajama-Data-v2 中取出英文資料 |
    | MathPile-commercial | 國外開放數學語料庫 MathPile-commercial |
    | 中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 |
    | github-code-clean | 為 github 開源程式碼資料集,去除unlicense的程式碼和文件。 |
  • 微調資料
    • TAIDE團隊訓練llama2系列模型來產生微調資料資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共128K筆。微調資料後續會對外釋出。

模型評測

  • taide-bench
    • 評測資料
      • 寫文章、寫信、摘要、英翻中、中翻英,共500題
      • 資料連結: taide-bench
    • 評測方法
    • 評測分數
      | 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
      | — | —– | —– | —- | —- | —- | — |
      | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
      | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
      | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
      | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
      | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
      | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授權條款

免责聲明

  • LLM 模型由於設計架構的限制,以及資料難免有偏誤,語言模型的任何回應不代表 TAIDE 立場,使用前需要額外加入安全防護機制,且回應內容也可能包含不正確的資訊,使用者請勿盡信。

開發團隊

相關連結

引用