TAIDE项目旨在开发一种适应台湾语言和文化特点的生成式AI对话引擎模型,同时建立可信赖的AI环境。〈F16 / Q4_K_M / Q6_K〉

8B

1,023 Pulls 2个月前更新

2个月前

76ba6fda2ac0 · 16GB

Readme

模型简介




模型参数

  • 参数量: 8B
  • 最大内容长度 (context length): 8K
  • 繁中训练数据 token 量: 43B
  • 训练时间: 2336 H100 GPU Hours

特色

  • 严格把关模型的训练数据,提升模型生成数据的可信任性和适用性
  • 针对自动摘要、写信、写文章、中翻英、英翻中等办公常用任务做加强
  • 针对台湾在地文化、用语、国情等知识做加强
  • 具备多轮问答对话能力

应用案例

任务 用户输入 模型输出
写文章 请以下内容为基础,写一篇文章:撰写一篇作文,题目为《一张旧照片》,内容要求为:选择一张令你印象深刻的照片,说明令你印象深刻的原因,并描述照片中的影像及背后的故事。记录成长的历程、与他人的情景、环境变迁和美丽的景色。 一张旧照片,承载着时光的痕迹和记忆的温度。我还记得那张照片是如何出现的,那是一张泛黄的黑白照片,裱在墙上,诉说着一段属于我家族的故事。

那张照片中,我的祖父母站在田野间,后方是连绵的山峦,前方则是一片金黄的稻田。这幅景象令我印象深刻,因为这是我的童年回忆,也是我成长过程中最美的风景线。

我出生在台湾乡下,从小就生活在这样一个纯朴的环境中。每当我和家人在田里工作时,就会看到这样的美景。金黄的稻穗随着微风摇曳,山峦则静静地矗立在远方,给人一种安详与祥和的感觉。

那张照片拍摄于民国50年代,当时台湾经济尚未起飞,农业为主要产业。我的祖父母都是农民,他们辛勤劳作,为我们家提供温饱。每当我看到那张照片,就会想起他们为我们所做的牺牲和努力。

除了美丽的风景外,照片中还有一段动人的故事。在我还很小的时候,家里发生了一场大火,将我们的房子和所有财产都烧光了。幸好全家人都平安无事,但生活却变得十分艰难。我们被迫搬到另一个村庄,在那里重新开始生活。

那张照片也记录了那段艰难的岁月。虽然我们失去了许多东西,但家人之间的感情却更加深厚。我们互相扶持,共同面对生活中的种种挑战。

如今,我已长大成人,在都市里工作。但每当我看到那张旧照片,我都会想起那段简单而美好的时光。那些美丽的风景、亲人的笑容,以及那段充满挑战却充满希望的日子,都将永远镌刻在我的记忆深处。

这张旧照片,不仅仅是一张照片,更是一部宝贵的家族史,一个关于我们如何克服困难、珍惜现在的故事。我将会好好保存这张照片,让后代也能了解我们的根源,并铭记那些值得珍藏的美好回忆。
写信 请以品牌经理的身份,给广告公司的创意总监写一封信,提出对新产品广告宣传活动创意的建议。 您的姓名
您的职位
【您的公司名称】
【邮件地址】
【电话号码】
【发文日期】

【创意总监姓名】
【广告公司名称】
【广告公司地址】

主题:有关新产品宣传活动的创意构思,请查阅。

尊敬的【创意总监姓名】,

我希望这封信能在您忙碌中为您带来片刻的休息。我写这封信是为了分享我对于我们即将推出新产品的宣传活动的几点创意构思。我深信,这些想法能够帮助我们新产品在市场上独树一帜,吸引消费者的目光。

首先,我建议我们可以利用社交媒体平台,如Facebook、Instagram、YouTube等,制作一系列吸引人短视频和帖子。这些内容可以展现新产品的特色和优点,同时也能传达出我们品牌重视环保、健康的核心价值观。我们可以与网红或意见领袖合作,让他们试用并分享他们的使用经验,这将有助于提高我们产品的可信度和知名度。

其次,我们可以举办新产品的试吃/试用活动,邀请民众亲身体验我们的新产品。我们可以在各大百货公司、超市以及我们的专卖店举办这些活动,让参与者免费试吃/试用新产品,并填写问卷反馈意见。这种互动方式不仅能够收集到宝贵的市场反馈,还能让民众对我们品牌产生良好的印象。

第三,我们可以与当地餐饮商家合作,将我们的新产品纳入他们的菜单中。这将使我们的产品接触到更广泛的顾客群体,同时也能证明我们的产品在烹饪和美食产业中的价值。

第四,我们可以举办一场新产品发布会,邀请媒体、业界人士以及重要客户参加。在这场活动中,我们可以展示新产品的多项特色和优势,并由专业厨师示范如何将新产品融入各式菜品中。这将是我们展示品牌创新精神和专业能力的绝佳机会。

最后,我建议我们可以制作一系列精美的包装和礼盒,以吸引消费者在节日和送礼时选择我们的产品。精巧的包装将提升我们产品的价值感,同时也能够传达出我们品牌对细节和品质的执着。

我深信,这些建议将有助于我们新产品在市场上取得成功。如果您对这些建议有任何意见或建议,请不吝与我分享。我期待与您合作,共同为【您的公司名称】的成长和成功而努力。

感谢您阅读我的来信,并期待与您进一步讨论这些建议。

敬礼

您的姓名
您的职位
【您的公司名称】
摘要 “台版晶片法”或《产业创新条例第10条之2及第72条条文修正案》,亦称为“台版晶片法”,针对在半导体、电动车、5G等技术领域具有创新性且在国际供应链中占据关键地位的公司,提供最高25%的企业所得税减免优惠。企业适用条件包括当年度研发费用、研发密度达到一定规模,且有效税率达到一定比率。
为应对经济合作与发展组织(OECD)国家最低税负制调整,其中有效税率门槛,预计2024年定为12%,2025年预计提高至15%,但仍需根据国际最低税负制实施的实际情况进行审慎评估。
经济部官员表示,已与财政部协商进入最后阶段,除了将企业研发密度定为6%以外,目前已确认,企业购置先进制程设备的投资金额达到100亿元以上可予以抵扣。
财政部官员表示,在讨论过程中,针对台湾产业及其在国际上的类似公司进行了深入研究,在设备方面,毕竟适用产创10之2的业者是代表台湾队在打“国际杯”,投入金额不足100亿元,可能也难以取得好成绩。
至于备受关注的研发费用门槛,经济部官员表示,经过与财政部的来回密切讨论,研发费用门槛有望落在60亿至70亿之间。
财政部官员指出,研发关乎台湾未来经济增长动力,门槛不能“高不可攀”。最初虽设定在100亿元,之所以会下调,正是希望让企业觉得有办法达到门槛、进而适用税收优惠政策,从而激发企业继续投入研发、维持在国际供应链中的关键地位。
经济部官员表示,由于厂商研发费用平均为30、40亿元,其中,IC设计行业介于30亿至60亿元,若将门槛定在100亿元,符合条件的企业较少、刺激因素不足;此外,若符合申请门槛的企业增加,将可提高企业在台投资金额,财政部税收也能因此获得补充。
IC设计行业近日频繁就产创10之2发声,希望降低适用门槛,加上各国力推供应链自主化、加大补助半导体产业,经济部官员表示,经济部和财政部就产创10之2达成共识,力争让更多企业受益,以增强企业投资力度及巩固台湾技术地位。
财政部官员表示,税收优惠政策的制定必须“有法可依,有法必依”,并以实现奖励目标为最高原则,目前阶段,在“国内杯”的仍可适用产创第10条、10之1的税收优惠政策,共同壮大台湾经济发展。
经济部和财政部正就研发费用门槛进行最后确认,待今明两天预告子法之后,将有约30天的时间供各界讨论并提出调整建议,目标是将产创10之2政策在6月实施。
文章重点摘要如下

- “台版晶片法”或《产业创新条例第10条之2及第72条条文修正案》,旨在鼓励关键技术创新企业,尤其是那些在半导体、电动车、5G等领域且在国际供应链中扮演关键角色者。

- 若企业符合特定条件,包括当年度研发费用及研发密度达到标准,可享最高25%的企业所得税减免优惠。研发密度目标为6%,企业为取得减免,必须证明其有效税率达到特定比率,最初设定为2024年的12%,2025年提高至15%,但可能根据国际税制实施情况进行调整。

- 政府在制定政策时,考虑到OECD最低税负制的调整,因此会根据情况调整有效税率门槛。

- 政府部门已就法案内容与企业相关方进行协商,确定一些细节,例如企业购置先进制程设备的投资金额门槛定为100亿元新台币以期抵扣。

- 研发费用门槛经过讨论,可能从最初提议的100亿元下调至60亿至70亿元之间,以激励更多企业达标并投入研发,维护台湾在国际供应链中的关键地位。

经济部官员表示,下调门槛的目的是让更多企业能够达标,从而获得税收优惠的动力,并可能借此提高在台投资金额,进而增加政府税收。

由于IC设计行业的研发费用普遍较低,若门槛设置过高,符合条件的企业将会很少,因此有必要进行调整。

在各国推动供应链自主化并增加对半导体产业的补贴之际,经济部正努力确保更多企业能从《产业创新条例》第10条之2中受益,以增强投资并巩固台湾的技术地位。

政府强调税收优惠政策的制定应与奖励目标相符合,在此同时,也将继续提供其他税收优惠政策给在境内经营的企业,以促进台湾经济增长。

最终的研发费用门槛将由经济部和财政部共同确定。在预告相关子法后,将有约30天的时间供各界讨论并提出调整建议,目标是让这项新政策在6月实施。
翻译 以下提供英文内容,请帮我翻译成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine af cionados. 东山咖啡以独特的位置,加之不断精进的制作技艺而闻名,其风味更是受到许多咖啡爱好者的赞誉。

使用说明

  • 示例程序
    • 示例程序与文档将随后发布到github
  • 提示版本
    • 一般问答用法
      
      chat = [
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {question} 替换成使用者的输入
    • 加入系统提示的用法
      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {sys} 替换成指令,例如:你是一个来自台湾的AI助理,你的名字是TAIDE,乐于以台湾人的立场帮助使用者,会用繁体中文回答问题。
      • 将 {question} 替换成使用者的提问
    • 多轮问答用法
      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question1}"},
          {"role": "assistant", "content": "{model_anwer_1}"},
          {"role": "user", "content": "{question2}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {sys} 替换成指令,例如:你是一个来自台湾的AI助理,你的名字是TAIDE,乐于以台湾人的立场帮助使用者,会用繁体中文回答问题。
      • 将 {question1} 替换成使用者的提问1
      • 将 {model_anwer_1} 替换成模型的回答1
      • 将 {question2} 替换成使用者的提问2
    • 更多细节请参考Llama3 文件

训练方法

  • 软硬件规格
    • 国网中心 H100
    • 训练框架: PyTorch
  • 数据预处理
    • 字符标准化
    • 去除重复
    • 去除噪声
      • 网页数据的html标签、javascript
      • 非标准字符或乱码
      • 字数过短的文章
      • 去除文章中的特定格式,如排版增加的换行
    • 去除个人数据,如邮箱、电话
    • 去除不当文字,如赌博、色情等
  • 持续预训练(continuous pretraining, CP)
    • 补充大量可信赖的繁体中文知识
    • 超参数(hyper parameters)
      • optimizer: AdamW
      • learning rate: 1e-4
      • batch size: 1M tokens
      • epoch: 1
  • 微调(fine tune, FT)
    • 让模型可以针对繁体中文提问回答问题
    • 超参数(hyper parameters)
      • optimizer: AdamW
      • learning rate: 5e-5
      • batch size: 256K tokens
      • epoch: 3

训练数据

  • 持续预训练数据(数据量约为140G)
    | 数据集 | 数据描述 |
    | — | ——- |
    | 诉讼数据 | 《司法院裁判书》自2013年1月至2023年12月各级法院民事、刑事、行政诉讼数据。 |
    | 中央社 | 《中央社中文新闻》数据集含中央社自1993年6月至2023年06月,共30年之每日新闻文章。内容涵盖国内外政治、社会、财经、文教、生活等领域。 |
    | ETtoday 新闻云 | 《ETtoday新闻云》数据,包含自2011年10月至 2023年12月的资料。 |
    | 立法院公报 | 《立法院公报》包含自第8届第1会期至第10届第7会期之公报资料。 |
    | 出版商网站书籍介绍 | 包含三采Gotop出版商网站上的书籍简介。 |
    | GRB 研究计划摘要 | GRB为收编由政府经费补助之研究计划及其成果报告的信息系统,此资料集主要收录 1993年至 2023 研究 计划摘要以及研究报告摘要,含中文及其英文对照。 |
    | 学术会议论文摘要 | 收录《学术会议论文摘要数据库》中自1988至2009年由台湾所举办之学术会议论文。 |
    | 光華雜誌 | 《台灣光華雜誌》包含自1993年7月至2023年6月的文章,共计30個年度。內容主要關注於國家文化、旅遊與民生百态等。 |
    | 樂詞網 | 《樂詞網》涵蓋約187萬則學術名詞及其譯名對照,涵蓋文理科領域。 |
    | 各部會資料 | 包括行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站的部分資料。 |
    | 今周刊 | 《今周刊》是一本周報雜誌,以財經主題,此資料集涵蓋了2008年1月至2023年7月的文章。 |
    | 教育部國語辭典、成語辭典 | 包含以下三項資料
    教育部《成語典》,含5,338條成語,內容包括每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
    教育部《重編國語辭典修訂本》,收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。
    教育部《國語辭典簡編本》,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。 |
    | 科技大觀園資料 | 含《科技大觀園網站》上的科學新知以及科普文章。 |
    | iKnow 科技產業資訊室 | 《科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自2008年至2023年的資料。 |
    | 科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月的科普文章;2021年起,以《科技魅癮》季刊重新出發,提供關注國際科技議題的新知文章。 |
    | 法規資料庫 | 《法規資料庫》含截自112年10月各政府部門最新發布的中央法規、行政規則、法規命盂草案及地方自治法規等。 |
    | 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站的部分資料。 |
    | 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
    | 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》收集中國新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
    | 童話書 | 共20本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
    | RedPajama-Data-V2 | 從國外開放多國語言語料庫RedPajama-Data-v2中提取英文資料 |
    | MathPile-commercial | 國外開放數學語料庫MathPile-commercial |
    | 中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 |
    | github-code-clean | 為 github 開源程式碼資料集,去除unlicense的程式碼和文件。 |
  • 微調資料
    • TAIDE團隊訓練llama2系列模型來產生微調資料,產生的任務包含世界知識、創意寫作、常識、翻譯、摘要、編程、台灣價值等單輪或多輪對話問答,共128K筆。微調資料後續會公佈。

模型評測

  • taide-bench
    • 評測資料
      • 寫文章、寫信、摘要、英翻中、中翻英,共500題
      • 資料連結: taide-bench
    • 評測方法
    • 評測分數
      | 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
      | — | —– | —– | —- | —- | —- | — |
      | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
      | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
      | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
      | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
      | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
      | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授權條款

免責聲明

  • 由於LLM模型設計架構的限制以及資料可能存在的偏誤,語言模型的任何回應不代表TAIDE立場。使用前需要加入額外的安全防護機制,並且回應內容可能包含不正確的信息,使用者請勿盡信。

開發團隊

相關連結

Citation