最新
6.6GB
Llama3-TAIDE模型由国家应用研究实验室开发并构建。本版本使用RoPE缩放扩展到32k。
8B
89次提取 3个月前更新
3个月前更新
3个月前
2cc2224b9f19 · 5.7GB
模型
架构llama
·
参数8.03B
·
量化Q5_K_M
5.7GB
模版
{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|> {{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|> {{ .Response }}<|eot_id|>
254B
参数
{"num_keep":24,"stop":["<|start_header_id|>","<|end_header_id|>","\"<|eot_id|>\""]}
114B
说明
描述
本项目包含用于Llama3-TAIDE-LX-8B-Chat-Alpha1的GGUF格式模型文件。
关于GGUF
GGUF是由llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,而GGML不再由llama.cpp支持。
提供的文件
名称 | 量化方法 | 位数 | 大小 | 用例 |
---|---|---|---|---|
Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q5_K_M.gguf | Q5_K_M | 5 | 5.73 GB | 大,非常低的质量损失 |
Llama3-TAIDE-LX-8B-Chat-Alpha1-32k-GGUF.Q6_K.gguf | Q6_K | 6 | 6.6 GB | 非常大,质量损失极低 |
原始模型卡片
模型简介
- TAIDE项目致力于开发符合台湾语言和文化特性的生成式人工智能对话引擎模型,同时构建可信赖的人工智能环境。结合产学研力量,推动可信赖生成式人工智能的发展,提升台湾在国际竞争中的地位,促进产业发展,避免对外国技术的依赖。
- Llama3 TAIDE系列模型以Meta公司发布的LLaMA3-8b为基础,引入台湾不同领域的可用文本与训练素材,提高模型在正体中文回应的能力与特定任务的表现。公开发布的模型如下
- Llama3-TAIDE-LX-8B-Chat-Alpha1:基于LLaMA3-8b,使用繁体中文数据预训练(持续预训练),并通过指令微调(instruction tuning)强化办公常用任务和多次问答对话能力,适用于聊天对话或任务协助的使用场景。Llama3-TAIDE-LX-8B-Chat-Alpha1另外提供4 bit量化模型,量化模型主要是提供使用者的便利性,可能会影响性能与更多不可预期的问题,请用户理解并注意。
- Llama3-TAIDE-LX-8B-Chat-Alpha1:基于LLaMA3-8b,使用繁体中文数据预训练(持续预训练),并通过指令微调(instruction tuning)强化办公常用任务和多次问答对话能力,适用于聊天对话或任务协助的使用场景。Llama3-TAIDE-LX-8B-Chat-Alpha1另外提供4 bit量化模型,量化模型主要是提供使用者的便利性,可能会影响性能与更多不可预期的问题,请用户理解并注意。
模型参数
- 参数量:8B
- 最大内容长度(上下文长度):8K
- 繁中训练数据token量:43B
- 训练时间:2336 H100 GPU Hours
特色
- 严格审查模型训练数据,提升模型生成数据的可信赖性和适用性
- 针对自动摘要、写信、写文章、中翻英、英翻中等办公常用任务做加强
- 针对台湾本地文化、用语、国情等知识做加强
- 具备多轮问答对话能力
应用案例
任务 | 用户输入 | 模型输出 |
---|---|---|
写文章 | 请以下内容为基础,写一篇文章:写一篇作文,题目为《一张旧照片》,内容要求为:选择一张令你印象深刻的照片,说明令你印象深刻的原因,并描述照片中的影像及背后的故事。记录成长的过程、与他人的情景、环境变迁和美丽的景色。 | 一张旧照片,承载着时光的痕迹和回忆的温度。我还记得那张照片是如何出现的,那是一张泛黄的黑白相片,裱在墙上,诉说着一段属于我家族的故事。 那张照片中,我的祖父母站在田野间,后方是绵延的山峦,前方则是一片金黄的稻田。这景象令我印象深刻,因为这是我的童年回忆,也是我成长过程中最美好的风景线。 我出生在台湾乡下,从小就生活在这样一个淳朴的环境中。每当我和家人在田里工作时,就会看到这样的美景。金黄的稻穗随着微风摇曳,山峦则静静地矗立在远方,给人一种安详与祥和的感觉。 那张照片拍摄于民国50年代,当时台湾经济尚未起飞,农业为主要产业。我的祖父母都是农民,他们辛勤耕种,为我们家提供温饱。每当我看到那张照片,就会想起他们为我们所做的牺牲和努力。 除了美丽的风景外,照片中还有一段动人的故事。在我很小的时候,家里发生了一场大火,将我们的房子和所有财产都烧光了。幸好全家人都平安无事,但生活却变得十分困苦。我们被迫搬到另一个村庄,在那里重新开始生活。 那张照片也记录了那段艰苦的岁月。虽然我们失去了很多东西,但家人之间的感情却更加深厚。我们互相扶持,共同面对生活中的种种挑战。 如今,我已长大成人,在都市里工作。但每当我看到那张旧照片,我都会想起那段简单而美好的时光。那些美丽的风景、亲人的笑容,以及那段充满挑战却充满希望的日子,都将永远铭刻在我的记忆深处。 这张旧照片,不仅是一张照片,更是一份宝贵的家族史,一个关于我们如何克服困难、珍惜现在的故事。我将好好保存这张照片,让后代也能够了解我们的根源,并且铭记那些值得珍藏的美好回忆。 |
写信 | 请以品牌经理的身份,给广告公司的创意总监写一封信,提出对新产品宣传活动的创意建议。 | (您的姓名) (您的职务) (您的公司名称) (邮件地址) (电话号码) (发文日期) (创意总监姓名) (广告公司名称) (广告公司地址) 主题:关于新产品宣传活动的创意灵感,请查收。 尊敬的[创意总监姓名], 我希望这封信能找到您在忙碌中好好休息。我写这封信,是为了分享我对于我们即将推出的新产品宣传活动的创意灵感。我坚信,这些想法能帮助我们新产品在市场上脱颖而出,吸引消费者的目光。 首先,我建议我们可以利用社交媒体平台,例如Facebook、Instagram、YouTube等,制作一系列吸引人的短片和帖子。这些内容可以展示新产品的特点和优势,同时也能传达出我们品牌注重环保、健康的核心理念。我们可以与网红或意见领袖合作,让他们试用并分享他们的使用经验,这将有助于提高我们产品的可信度和能见度。 其次,我们可以举办新产品试吃/试用活动,邀请公众亲身体验我们新产品。我们可以在各大百货公司、超市以及我们的店面举办这些活动,让参与者免费试吃/试用新产品,并填写问卷反馈意见。这种互动的方式,不仅可以收集到宝贵的市场反馈,还能让公众对我们品牌产生积极的印象。 第三,我们可以与当地餐饮业者合作,将我们的新产品纳入他们的菜单中。这将使我们的产品接触到更广泛的受众,同时也能证明我们的产品在烹饪和美食产业中的价值。 第四,我们可以举办新产品发布会,邀请媒体、行业人士以及重要客户参加。在这场活动中,我们可以展示新产品的各项特点和优势,并由专业厨师示范如何将新产品融入各式料理中。这将是我们向公众展示我们的品牌创新精神和专业能力的绝佳机会。 最后,我建议我们可以制作一系列精美的包装和礼盒,以吸引消费者在节假日和送礼时选择我们的产品。精致的包装将能提升我们产品的价值感,同时也能传达出我们品牌对细节和品质的坚持。 我坚信,这些创意灵感将有助于我们新产品在市场上取得成功。如果您对这些想法有任何意见或建议,请不吝与我分享。我期待着与您合作,共同努力为[您的公司名称]的增长和成功而奋斗。 感谢您抽出宝贵时间阅读我的信,并期待着与您进一步讨论这些想法。 敬礼 (您的姓名) (您的职务) (您的公司名称) |
摘要 | 「产业创新条例第10条之2及第72条条文修正案」俗称「台版晶片法」,针对半导体、电动车、5G等技术创新且处于国际供应链关键地位的公司,提供最高25%的营业税抵扣优惠。企业适用条件包括当年研发费用、研发密度达到一定规模,且有效税率达到一定比率。 为应对经济合作发展组织(OECD)最低税负制调整,其中有效税率门槛,民国112年定为12%,113年料将提高到15%,但可能依国际税制实施情况进行调整。 经济部官员表示,已与财政部协商进入最后阶段,除企业研发密度定在6%外,目前已确认,企业购置先进制程的设备投资金额达到100亿元以上可抵扣。 财政部官员表示,在制定方案过程中,针对台湾产业及其在国际上类似的公司进行了深入研究,在设备方面,毕竟适用于产创10之2的企业者是代表台湾队打「国际杯」,投入金额不达100亿元,可能也打不了。 至于备受关注的研发费用门槛,经济部官员表示,历经与财政部的来回密切讨论,研发费用门槛有望落在60亿至70亿之间。 财政部官员指出,研发关乎台湾未来经济增长动力,门槛不能「高不可攀」,起初虽设定在100亿元,之所以会下调,正是为了让企业觉得有办法达到门槛、进而适用税收优惠,从而有动力继续投入研发,维持国际供应链的关键地位。 经济部官员表示,因为厂商研发费用平均为30、40亿元,其中,IC设计公司介于30亿元至60亿元范围,若将门槛定为100亿元,符合条件的企业较少、刺激诱因不足;此外,若符合条件的申请企业增加,将可提高企业在台投资金额,财政部税收也因此获得补益。 IC设计公司近日频繁就产创10之2发声,希望降低适用门槛,加上各国力拼供应链自主化、加码补助半导体产业,经济部官员表示,经济部和财政部就产创10之2达成共识,争取让更多企业受惠,盼增强企业投资力度及巩固台湾的科技地位。 财政部官员表示,税收奖励的制定必须「有为有守」,并以达到奖励设立目的为最高原则,现阶段在打「国内杯」的企业仍可适用产创第10条、10之1的税收优惠,共同壮大台湾经济发展。 经济部和财政部正就研发费用门槛做最后确认,待今明两天预告子法之后,约有30天时间,可与众界进一步讨论并调整,盼产创10之2能在6月上路。 |
文章重点摘要如下 「台版晶片法」或《产业创新条例第10条之2及第72条条文修正案》,旨在鼓励关键技术创新企业,尤其是那些在半导体、电动车、5G技术等领域且在国际供应链中扮演关键角色者。 企业若符合特定条件,包括当年研发费用及研发密度达标,可享受最高25%的营业税抵扣优惠。研发密度目标设定为6%,企业为获取抵扣,必须证明其有效税率达到特定比率,最初设定为112年的12%,113年提高到15%,但可能依国际税制实施情况进行调整。 政府在制定政策时,考虑到OECD最低税负制的调整,因此会视情况进行调整有效税率门槛。 政府部门已就法案内容与利益相关者进行协商,确定一些细节,例如企业购置先进制程设备的大门设置为100亿元新台币以供抵扣。 研发费用门槛经过讨论,可能从最初提议的100亿元下调至60亿元至70亿元之间,以激励更多企业符合资格并投入研发,维持台湾在国际供应链中的关键地位。 经济部官员表示,下调门槛的目的是让更多企业觉得能够达标,从而获得税收优惠的动力,并可能借此提高在台投资金额,进而增加政府税收。 由于IC设计公司的研发费用普遍较低,若门槛设得过高,符合条件的企业将很少,因此有必要进行调整。 在各国推动供应链自主化并增加对半导体产业的补贴之际,经济部正努力确保更多企业能从《产业创新条例》第10条之2中受益,以增强投资和巩固台湾的科技地位。 政府强调税收优惠的制定应符合奖励目标,在此同时,也将继续提供其他税收优惠给在国内外经营的企业,以促进台湾经济增长。 最终的研发费用门槛将由经济部和财政部共同确定,在预告相关子法后,将有约30天时间与众界讨论并提出调整建议,目标是让这项新政策在6月实施。 |
翻译 | 以下提供英文內容,請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡以其獨特的地理位置和對製作技術不斷完善的追求而聞名於世,其風味深受許多咖啡愛好者的喜愛。 |
使用說明
範例程式
- 範例程式與文件之後將發布於github
- 範例程式與文件之後將發布於github
prompt版本
一般問答用法
chat = [ {"role": "user", "content": "{question}"}, ] prompt = tokenizer.apply_chat_template(chat)
- 將 {question} 替換為使用者的輸入
- 將 {question} 替換為使用者的輸入
加入system prompt的用法
chat = [ {"role": "system", "content": "{sys}"}, {"role": "user", "content": "{question}"}, ] prompt = tokenizer.apply_chat_template(chat)
- 將 {sys} 替換為指令,例如:你是一個來自台灣的AI助理,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會使用繁體中文回答問題。
- 將 {question} 替換為使用者的問題
- 將 {sys} 替換為指令,例如:你是一個來自台灣的AI助理,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會使用繁體中文回答問題。
多輪問答用法
chat = [ {"role": "system", "content": "{sys}"}, {"role": "user", "content": "{question1}"}, {"role": "assistant", "content": "{model_anwer_1}"}, {"role": "user", "content": "{question2}"}, ] prompt = tokenizer.apply_chat_template(chat)
- 將 {sys} 替換為指令,例如:你是一個來自台灣的AI助理,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會使用繁體中文回答問題。
- 將 {question1} 替換為使用者的問題1
- 將 {model_answer_1} 替換為模型的回答1
- 將 {question2} 替換為使用者的問題2
- 將 {sys} 替換為指令,例如:你是一個來自台灣的AI助理,你的名字是TAIDE,樂於以台灣人的立場幫助使用者,會使用繁體中文回答問題。
更多細節請參考Llama3 文件
訓練方法
軟硬體規格
- 國網中心H100
- 訓練框架: PyTorch
- 國網中心H100
資料前處理
- 字元標準化
- 去除重覆
- 去除雜訊
- 網頁資料的html tag、javascript
- 非標準字元或亂碼
- 字數過短的文章
- 去除文章中的特定格式,如為排版增加的換行
- 網頁資料的html tag、javascript
- 去除個資,如email、電話
- 去除不當文字,如賭博、色情等
- 字元標準化
持續預訓練(continuous pretraining, CP)
- 補充大量來源可信賴的繁體中文知識
- 超參數(hyper parameters)
- optimizer: AdamW
- learning rate: 1e-4
- batch size: 1M tokens
- epoch: 1
- optimizer: AdamW
- 補充大量來源可信賴的繁體中文知識
微調(fine tune, FT)
- 讓模型可針對繁體中文提問回答問題
- 超參數(hyper parameters)
- optimizer: AdamW
- learning rate: 5e-5
- batch size: 256K tokens
- epoch: 3
- optimizer: AdamW
- 讓模型可針對繁體中文提問回答問題
訓練資料
- 持續預訓練資料(數據量約為140G)
| 資料集 | 資料描述 |
| — | ——- |
| 訴訟資料 | 《司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 |
| 中央社 | 《中央社中文新聞》資料集含中央社自1993年6月至2023年06月,共30年之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 |
| ETtoday 新聞雲 | 《ETtoday新聞雲》資料,包含自2011年10月至 2023年12月的資料。 |
| 立法院公報 | 《立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。 |
| 出版商網站書籍介紹 | 包含三采、Gotop出版商網站上的書籍簡介。 |
| GRB 研究計畫摘要 | GRB為收錄由政府經費補助之研究計畫及其成果報告的資訊系統,此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要,含中文及其英文對照。 |
| 學術會議論文摘要 | 收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。 |
| 光華雜誌 | 《台灣光華雜誌》含自1993年7月至2023年6月的文章,共30年。內容著重於我國文化、觀光與民情等。 |
| 樂詞網 | 《樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。 |
| 各部會資料 | 包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。 |
| 今周刊 | 《今周刊》為一以財經為主的週刊雜誌,此資料集涵蓋2008年1月至2023年7月的文章。 |
| 教育部國語辭典、成語辭典 | 包含以下三項資料
教育部《成語典》,含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
教育部《重編國語辭典修訂本》,收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。
教育部《國語辭典簡編本》,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。 |
| 科技大觀園資料 | 含《科技大觀園網站》上的科學新知以及科普文章。 |
| iKnow 科技產業資訊室 | 《科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自 2008 年至 2023 年。 |
| 科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月之科普文章;2021年起,以《科技魅癮》季刊重新出發,提供國際關注科技議題的新知文章。 |
| 法規資料庫 | 《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命盡草案及地方自治法規等。 |
| 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 |
| 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
| 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
| 童話書 | 共 20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
| RedPajama-Data-V2 | 從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料 |
| MathPile-commercial | 國外開放數學語料庫 MathPile-commercial |
| 中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 |
| github-code-clean | 為github開源程式碼資料集,去除無版權的程式碼和文件。 |
- 微調資料
- TAIDE團隊訓練llama2系列模型來產生微調資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料之後將對外釋出。
- TAIDE團隊訓練llama2系列模型來產生微調資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料之後將對外釋出。
模型評測
- taide-bench
- 評測資料
- 寫文章、寫信、摘要、英翻中、中翻英,共500題
- 資料連結: taide-bench
- 寫文章、寫信、摘要、英翻中、中翻英,共500題
- 評測方法
- gpt4評分
- 評分程式: taide-bench-eval
- gpt4評分
- 評測分數
| 模型 | 中翻英 | 英翻中 | 摘要 | 写文章 | 写信 | 平均 |
| — | —– | —– | —- | —- | —- | — |
| Llama3-TAIDE-LX-8B-Chat-Alpha1 | 7.770 | 8.280 | 8.495 | 9.605 | 8.950 | 8.620 |
| GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
| TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
| LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
| LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
| LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |
- 評測資料
授权条款
免责声明
- 由于 LLM 模型的设计架构限制以及数据难免存在偏差,语言模型的任何回应不代表 TAIDE 立场,请在使用前额外加入安全防护机制,且回应内容也可能包含不准确的信息,请用户不要完全相信。