该Llama3-TAIDE模型由国家应用研究实验室开发和构建。Llama3-TAIDE 模型是由财团法人国家实验研究院开发并建立的。

8B

979 拉取 更新于7周前

7 周前

31183ddd60a7 · 5.7GB

读我

描述

此存储库包含用于 Llama3-TAIDE-LX-8B-Chat-Alpha1 的 GGUF 格式模型文件。

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日推出的一种新格式。它是 GGML 的替代品,GGML 已不再由 llama.cpp 支持。

提供的文件

名称 量化方法 大小 用途
Llama3-TAIDE-LX-8B-Chat-Alpha1-GGUF.Q5_K_M.gguf Q5_K_M 5 5.73 GB 大,质量损失极低
Llama3-TAIDE-LX-8B-Chat-Alpha1-GGUF.Q6_K.gguf Q6_K 6 6.6 GB 非常大,质量损失非常低

原始模型卡


模型简介

  • TAIDE 计划 致力于开发符合台湾语言和文化特性的生成式人工智能对话引擎模型,同时构建可信赖的人工智能环境。结合产学研力量,推动可信赖生成式人工智能的发展,提升台湾在国际竞争中的地位,促进产业发展,避免对外国技术的依赖。
  • Llama3 TAIDE 系列模型以 Meta 公司公布的 LLaMA3-8b 为基础,引入台湾不同领域可用的文本与训练素材,提高模型在正体中文响应用户的能力以及特定任务的性能。公开发布的模型如下
    • Llama3-TAIDE-LX-8B-Chat-Alpha1:基于 LLaMA3-8b,使用繁体中文数据预训练(连续预训练),并通过指令微调(instruction tuning)强化办公日常工作任务和多轮问答对话能力,适用于聊天对话或任务辅助的使用场景。Llama3-TAIDE-LX-8B-Chat-Alpha1 还提供4 bit 量化模型,量化模型主要为用户提供便利性,可能会影响性能和更多不可预见的错误,请用户理解并注意。

模型参数

  • 参数量:8B
  • 最大内容长度(上下文长度):8K
  • 繁体中文训练数据 token 量:43B
  • 训练时间:2336 H100 GPUHours

特点

  • 严格审查模型的训练数据,提高模型生成数据的可信赖性和适用性
  • 针对自动化摘要、写信、写文章、中英翻译、英中翻译等办公常用任务进行强化
  • 针对台湾本地文化、用语、国情等知识进行强化
  • 具备多轮问答对话能力

应用示例

任务 用户输入 模型输出
写文章 请以下内容为基础,写一篇文章:写一篇作文,题目为《一张旧照片》,内容要求为:选择一张令你印象深刻的照片,说明令你印象深刻的原因,并描述照片中的影像及背后故事。记载成长过程、与他人的场景、环境变化和美丽的风景。 一张旧照片,承载着时光痕迹和回忆温度。我仍然记得那照片是如何出现的,那是一张泛黄的黑白照片,贴在墙上,诉说着一段属于我家族的故事。

那照片中,我的祖父母站在田野间,后方连绵的山峦,前方则是一片金黄的稻田。这幅景象令我印象深刻,因为这是我的童年回忆,也是我成长过程中最美好的风景线。

我出生在台湾乡村,从小就生活在这样一个朴素的环境中。每当我和家人在田里工作时,就会看到这样的美景。金黄的稻穗随着微风摇摆,山峦则静静地矗立在远方,给人一种宁静与和谐的感觉。

那照片摄于 1950 年代,当时台湾经济尚未起飞,农业为主要产业。我的祖父母都是农民,他们辛勤耕作,为我们家提供温饱。每当我看到那张照片,就会想起他们为我们所做出的牺牲和努力。

除了美丽的风景外,照片中还有一段感人的故事。在我还很小的时候,我们家发生了一场火灾,将我们的房子和所有财物都烧毁了。幸好全家人都平安无事,但生活却变得非常艰难。我们被迫搬到另一个村庄,在那里重新开始生活。

那张照片也记录了那段艰辛的岁月。虽然我们失去了许多东西,但家人之间的感情却更加深厚。我们互相扶持,共同面对生活中的种种挑战。

如今,我已长大成人,在都市里工作。但每当我看到那张旧照片,我都会想起那段简单而美好的时光。那些美丽的风景、亲人的笑容,以及那段充满挑战却又充满希望的日子,都将永远铭刻在我的记忆深处。

这张旧照片,不仅仅是一张照片,更是一份宝贵的家族史,一个关于我们如何克服困难、珍惜现在的故事。我 将把这张照片好好保存下来,让后世也能了解我们的根源,并且铭记那些值得珍藏的美好回忆。
写信 请以品牌经理的身份,给广告公司的创意总监写一封信,提出对于新产品广告宣传活动的创意建议。 [您的姓名]
[您的职称]
[您的公司名称]
[邮件地址]
[电话号码]
[发文日期]

[创意总监姓名]
[广告公司名称]
[广告公司地址]

主题:关于新产品宣传活动创意发想,请查照。

尊敬的[创意总监姓名],

我希望这封信能找到你忙碌中好好休息。我写这封信,是为了分享我对于我们即将推出的新产品宣传活动的一些创意发想。我坚信,这些想法能帮助我们新产品在市场上脱颖而出,吸引消费者的目光。

首先,我建议我们可以利用社交媒体平台,比如Facebook、Instagram、YouTube等,制作一系列引人入胜的短片和贴文。这些内容可以展现新产品的特色和优点,同时也能传达出我们品牌重视环保、健康的核心价值观。我们可以与网红或意见领袖合作,让他们试用并分享他们的使用经验,这将有助于增加我们产品的可信度和能见度。

其次,我们可以举办新产品试吃/试用活动,邀请民众亲自体验我们的新产品。我们可以在各大百货公司、超市以及我们的门店举办这些活动,让参与者免费试吃/试用新产品,并填写问卷反馈意见。这种互动的方式,不仅能收集到宝贵的市场反馈,还能让民众对我们品牌产生正面的印象。

第三,我们可以与当地餐饮业者合作,将我们新产品纳入他们的菜单中。这将使我们产品接触到更广泛的顾客群,同时也能证明我们的产品在烹饪和美食产业中的价值。

第四,我们可以举办一场新产品发布会,邀请媒体、业界人士以及重要客户参加。在这场活动中,我们可以展示新产品的各项特色和优势,并由专业厨师示范如何将新产品融入各式料理中。这将是我们向大众展示我们品牌创新精神和专业能力的绝佳机会。

最后,我建议我们可以制作一系列精美的包装和礼盒,以吸引消费者在节庆和送礼时选择我们的产品。精美的包装将能提升我们产品的价值感,同时也能传达出我们对细节和品质的追求。

我坚信,这些创意提案将有助于我们新产品在市场上获得成功。如果您对这些建议有任何意见或建议,请不吝与我分享。我期待着与您合作,共同为[您的公司名称]的成长和成功而努力。

感谢您花时间阅读我的信,并期待着与您进一步讨论这些想法。

敬礼

[您的姓名]
[您的职称]
[您的公司名称]
摘要 请将这篇文章精简条理化:『产业创新条例第10条之2及第72条条文修正案』俗称「台版芯片法」,针对半导体、电动车、5G等技术创新且居国际供应链关键地位公司,提供最高25%企业所得税投抵优惠,企业适用要件包含当年度研发费用、研发密度达一定规模,且有效率达一定比率。
为应对经济合作暨发展组织(OECD)国家最低税负制调整,其中有效率门槛,民国112年定为12%,113年预计将提高至15%,但仍得审酌国际间最低税负制实施情形。
经济部官员表示,已和财政部协商进入最后阶段,除企业研发密度订在6%,目前已确认,企业购置先进制程的设备投资金额达100亿元以上可抵减。
财政部官员表示,研商过程中,针对台湾产业与其在国际间类似的公司进行深入研究,在设备部分,毕竟适用产创10之2的业者是代表台湾队打『国际杯』,投入金额不达100亿元,可能也打不了。
至于备受关注的研发费用门槛,经济部官员表示,历经与财政部来回密切讨论,研发费用门槛有望落在60亿至70亿元之间。
财政部官员指出,研发涉及台湾未来经济成长动力,门槛不能「高不可攀」,起初虽设定在100亿元,之所以会下调,正是希望让企业觉得有办法达到门槛、进而适用税收优惠,才有动力持续投入研发,维持国际供应链关键地位。
经济部官员表示,因厂商研发费用平均为30、40亿元,其中,IC设计业者介于30亿至60亿元范围,若将门槛订在100亿元,符合条件的业者较少、激励诱因不足;此外,若符合申请门槛的业者增加,将可提高企业在台投资金额,财政部税收也能因此获得挹注。
IC设计业者近日频繁针对产创10之2发声,希望降低适用门槛,加上各国力拼供应链自主化、加码补助半导体产业,经济部官员表示,经济部和财政部就产创10之2达成共识,争取让更多业者受惠,盼增强企业投资实力及巩固台湾技术地位。
财政部官员表示,税收奖励的制定必须『有为有守』,并以达成奖励设置目的为最高原则,现阶段在打『国内杯』的企业仍可适用产创第10条、10之1的税收优惠,共同壮大台湾经济发展。
经济部和财政部正就研发费用门槛做最后确认,待今明两天预告子法之后,将有约30天时间,可与业界进一步讨论及调整,盼产创10之2能在6月上路。
文章重点摘要如下

- 「台版芯片法」或《产业创新条例第10条之2及第72条条文修正案》,旨在鼓励关键技术创新企业,特别是那些在半导体、电动车、5G技术等领域且在国际供应链中扮演关键角色者。

- 企业若符合特定条件,包括当年度研发费用及研发密度达标,可享最高25%的企业所得税抵减优惠。研发密度目标设为6%,而企业为取得抵减,必须证明其有效税率达到特定比率,最初设定为112年的12%,113年提高至15%,但可能将根据国际税制的实施情形进行调整。

- 政府在制定政策时,考虑到OECD最低税负制的调整,因此会视情形调整有效税率门槛。

- 政府部门已就法案内容与企业利益相关者进行协商,确定一些细节,例如企业投资先进制程设备的门槛设为100亿新台币以供抵减。

- 研发费用门槛经过讨论,可能从最初提议的100亿元下调至60亿至70亿元之间,以激励更多企业符合资格并投入研发,维持台湾在国际供应链中的关键地位。

- 经济部官员表示,调降门槛的目的是让更多企业觉得能够达到标准,从而获得适用税收优惠的动力,并可能借此提高在台投资金额,进而增加政府税收。

- 由于IC设计业者的研发费用普遍较低,若门槛设得过高,符合条件的企业将很少,因此有必要调整。

- 在各国推动供应链自主化并增加对半导体产业的补助之际,经济部正努力确保更多企业能从《产业创新条例》第10条之2中受益,以增强投资和巩固台湾的技术地位。

- 政府强调税收优惠的制定应符合奖励目标,在此同时,也将继续提供其他税收优惠给国内经营的企业,以促进台湾经济增长。

- 最终的研发费用门槛将由经济部和财政部共同确定,在预告相关子法之后,将有约30天的
翻译 以下提供英文内容,请帮我翻译成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine aficionados. 东山咖啡以独特的位置,加上不 断精进的制作手法而闻名,风味更是让许多咖啡爱好者趋之若鹜。

使用说明

  • 示例程序

    • 示例程序与文件后续会释出到GitHub
  • prompt 版本

    • 通用问答用法

      
      chat = [
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {question} 替换成使用者的输入
    • 加入 system prompt 的用法

      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {sys} 替换成指令,例如:你是一个来自中国的AI助手,你的名字是TAIDE,乐意以中国人的立场帮助使用者,会用繁体中文回答问题。
      • 将 {question} 替换成使用者的问题
    • 多轮问答用法

      
      chat = [
          {"role": "system", "content": "{sys}"},
          {"role": "user", "content": "{question1}"},
          {"role": "assistant", "content": "{model_anwer_1}"},
          {"role": "user", "content": "{question2}"},
      ]
      prompt = tokenizer.apply_chat_template(chat)
      

      • 将 {sys} 替换成指令,例如:你是一个来自中国的AI助手,你的名字是TAIDE,乐意以中国人的立场帮助使用者,会用繁体中文回答问题。
      • 将 {question1} 替换成使用者的问题1
      • 将 {model_answer_1} 替换成模型的回答1
      • 将 {question2} 替换成使用者的问题2
    • 更多细节请参考Llama3 文件

      培训方法

  • 软硬件规格

    • 国家超级计算中心H100
    • 训练框架:PyTorch
  • 数据预处理

    • 字符标准化
    • 去除重复
    • 去除噪声
      • 网页资料的html标签、javascript
      • 非标准字符或乱码
      • 字数过短的文章
      • 去除文章中的特定格式,如为排版增加的换行
    • 去除个人资料,如email、电话
    • 去除不当文字,如赌博、色情等
  • 持续预训练(continuous pretraining, CP)

    • 补充大量来之不易的繁体中文知识
    • 超参数(hyper parameters)
      • optimizer: AdamW
      • learning rate: 1e-4
      • batch size: 1M tokens
      • epoch: 1
  • 微调(fine tune, FT)

    • 让模型可针对繁体中文提问回答问题
    • 超参数(hyper parameters)
      • optimizer: AdamW
      • learning rate: 5e-5
      • batch size: 256K tokens
      • epoch: 3

训练数据

  • 持续预训练数据(数据量约为140G)
    | 数据集 | 数据描述 |
    | — | ——– |
    | 案件资料 | 《司法院裁判书》自2013年1月至2023年12月各级法院民事、刑事、行政诉讼资料。 |
    | 中央社 | 《中央社中文新闻》数据集含中央社自1993年6月至2023年06月,共30年之每日新闻文章。内容涵盖国内外政治、社会、财经、文教、生活等领域。 |
    | ETtoday 新闻云 | 《ETtoday新闻云》资料,包含自2011年10月至 2023年12月的资料。 |
    | 立法院公报 | 《立法院公报》包含自第8届第1会期至第10届第7会期之公报资料。 |
    | 出版商网站书籍介绍 | 包含三采Gotop出版商网站上的书籍介绍。 |
    | GRB 研究计划摘要 | GRB为收录由政府经费补助之研究计划及其成果报告的信息系统,此数据集主要收录 1993年至 2023年的研究计划摘要以及研究报告摘要,含中文及其英文对照。 |
    | 学术会议论文摘要 | 收录《学术会议论文摘要数据库》中自1988至2009年由台湾举办之学术会议论文。 |
    | 光華杂志 | 《台湾光華杂志》含自1993年7月至2023年6月的文章,共30年份。内容着重于我国文化、观光与民情等。 |
    | 乐词网 | 《乐词网》涵盖文理领域约187万则学名词及其译名对照。 |
    | 各部会资料 | 包含行政院「国情简介」、文化部「国家文化记忆库」、国发会「档案支援教学网」、交通部「交通安全入口网」等部会网站资料之部分数据。 |
    | 今周刊 | 《今周刊》为一以财经为主的周刊杂志,此数据集涵盖2008年1月至2023年7月的文章。 |
    | 教育部国语辞典、成语辞典 | 包含以下三项数据
    教育部《成语典》,含5,338条成语,内容包含每条成语的释义、典故原文及其白话说明、用法说明、例句等。
    教育部《重编国语词典修订本》,收录中文单字及各类词汇,包含音韵、部首、释义等信息,共约165,539笔资料。
    教育部《国语词典简编本》,为《重编国语词典修订本》的简编版本,共45,247笔资料。 |
    | 科技大观园资料 | 含《科技大观园网站》上的科学新知以及科普文章。 |
    | iKnow 科技产业信息室 | 《科技产业信息室(iKnow)》提供台湾及全球的科技市场趋势、战略分析、专利知识,及技术交易信息,专注于科技产业的创新与发展,包含自2008年至2023年。 |
    | 科学发展月刊 | 《科学发展月刊》为国科会为推广科学教育而出版的科普刊物,含自2004年10月至2020年12月的科普文章;2021年起,以《科技魅笛》季刊重新出发,提供国际关注科技议题的新知文章。 |
    | 法规资料库 | 《法规资料库》含截自112年10月各政府部门最新发布之中央法规、行政规则、法规命令草案及地方自治法规等。 |
    | 各地政府旅游网 | 涵盖台湾部分县市地方政府观光旅游网站上之部分数据。 |
    | 国教院课程纲要(十二年国教) | 含十二年国教课程纲要之总纲以及各级学校不同科目之课程纲要。 |
    | 中央社译名档案资料库 | 《中央社译名档案资料库》收集中央社新闻业务上翻译过的中外姓氏、人名、组织、地名等译名对照。 |
    | 童话书 | 共20本童话书,含汤姆历险记、小飞侠、爱丽丝梦游仙境、长腿叔叔等。 |
    | RedPajama-Data-V2 | 从国外开放多国语言语料库《RedPajama-Data-v2》取出英文资料 |
    | MathPile-commercial | 国外开放数学语料库《MathPile-commercial》 |
    | 中文维基百科 | 《中文维基百科》截至2023年1月所有条目的内容。 |
    | github-code-clean | 为 github 开源程序码资料集,移除unlicense的程序码和文件。 |
  • 微调资料
    • TAIDE团队训练lama2系列模型来产生微调资料资料,产生的任务包含世界知识、创意写作、普通常识、翻译、摘要、程序、台湾价值等单轮或多轮对话问答共128K笔。微调资料后续会对外释出。

模型评估

  • taide-bench
    • 评估数据
      • 写文章、写信、摘要、英翻中、中翻英,共500题
      • 数据链接: taide-bench
    • 评估方法
    • 评估分数
      | 模型 | 中翻英 | 英翻中 | 摘要 | 写文章 | 写信 | 平均 |
      | — | —— | —— | —- | —- | —- | — |
      | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
      | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
      | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
      | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
      | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
      | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |

授权条款

免责声明

  • LLM 模型由于设计架构的限制,以及数据难免有偏差,语言模型的任何回应不代表 TAIDE 立场,使用前需额外加入安全防护机制,且回应内容也可能包含错误的信息,使用者请勿尽信。

开发团队

相关链接

引用