RefuelLLM-2-small,又名Llama-3-Refueled

8B

107 Pulls 更新于3个月前

自述文件

模型详情

RefuelLLM-2-small,即 Llama-3-Refueled,是基于超过 2750 个数据集的语料库调优的 Llama3-8B 基础模型指令,涵盖分类、阅读理解、结构化属性提取和实体解析等任务。我们非常高兴将其开源,让社区在此基础上构建。

  • 有关 RefuelLLM-2 模型系列的更多详细信息,请参阅此处
  • 您还可以尝试我们的LLM playground上的模型

模型开发者 - Refuel AI

输入 - 仅文本。

输出 - 仅文本。

架构 - Llama-3-Refueled 基于 Llama-3-8B-instruct 构建,它是一个自回归语言模型,使用优化的 transformer 架构。

发布日期 - 2024 年 5 月 8 日。

许可 - CC BY-NC 4.0

使用说明

此存储库包含与 HuggingFace 兼容的 Llama-3-Refueled 权重。以下代码示例展示了如何使用 Transformers:

>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model_id = "refuelai/Llama-3-Refueled"
>>> tokenizer = AutoTokenizer.from_pretrained(model_id)
>>> model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

>>> messages = [{"role": "user", "content": "Is this comment toxic or non-toxic: RefuelLLM is the new way to label text data!"}]

>>> inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to("cuda")

>>> outputs = model.generate(inputs, max_new_tokens=20)
>>> print(tokenizer.decode(outputs[0]))

训练数据

该模型在包含 2750 多个 NLP 任务的语料库上进行了训练,覆盖了 40 多亿个令牌。我们的训练收藏主要包含以下内容:
1. 如 Flan、Task Source 和 Aya 收藏中的人类标注数据集
2. 如 OpenOrca、OpenHermes 和 WizardLM 等合成的数据集
3. 由 Refuel AI 开发或授权的专有数据集

基准测试

在此部分,我们报告了在标注任务基准测试中 Refuel 模型的结果。有关方法详情,请参阅此处

提供者模型LLM 输出质量(按任务类型分类)
总体分类阅读理解结构提取实体匹配
RefuelRefuelLLM-283.82%84.94%76.03%88.16%92.00%
OpenAIGPT-4-Turbo80.88%81.77%72.08%84.79%97.20%
RefuelRefuelLLM-2-small (Llama-3-Refueled)79.67%81.72%70.04%84.28%92.00%
AnthropicClaude-3-Opus79.19%82.49%67.30%88.25%94.96%
MetaLlama3-70B-Instruct78.20%79.38%66.03%85.96%94.13%
GoogleGemini-1.5-Pro74.59%73.52%60.67%84.27%98.48%
MistralMixtral-8x7B-Instruct62.87%79.11%45.56%47.08%86.52%
AnthropicClaude-3-Sonnet70.99%79.91%45.44%78.10%96.34%
Anthropicclaude-3-俳句69.23%77.27%50.19%84.97%54.08%
OpenAIGPT-3.5-Turbo68.13%74.39%53.21%69.40%80.41%
Metalamd3-8B-Instruct62.30%68.52%49.16%65.09%63.61%

限制

Llama-3-Refueled 没有任何审查机制。我们期待与社区合作
探讨如何使模型更精细地尊重边界,以便在需要审查输出的环境中部署。