9 Pulls 更新于8周前

README

Arcee Spark

Arcee Spark

Arcee Spark 是一个强大的 7B 参数语言模型,其性能远超其重量级。此模型基于 Qwen2 初始化,经过了一流的训练过程

  1. 在 180 万个样本上微调
  2. 使用 Arcee 的 mergekit 与 Qwen2-7B-Instruct 合并
  3. 进一步使用直接偏好优化 (DPO) 进行精炼

这个细致入微的过程产生了卓越的性能,Arcee Spark 在其尺度的模型中取得了 MT-Bench 的高分,甚至在许多任务上超过了 GPT-3.5。

关键特性

  • 700亿参数
  • 最适合其规模的最新性能
  • 从 Qwen2 初始化
  • 包括微调、合并和 DPO 在内的先进训练过程
  • 7B 级别中最高 MT-Bench 分数
  • 在许多任务上优于 GPT-3.5
  • 上下文长度为 128k 个标记,非常适合需要许多对话转型的任务或处理大量文本的工作。

商业应用案例

Arcee Spark 为那些希望利用高级 AI 功能而又不需要更大模型重型计算需求的企业提供了一个极具吸引力的解决方案。它的小尺寸和高性能组合使其非常适合:

  1. 实时应用:在聊天机器人、客户服务自动化和需要低延迟的交互式系统中部署 Arcee Spark。

  2. 边缘计算:在边缘设备或资源受限的环境中运行复杂的 AI 任务。

  3. 成本效益扩展:在基础设施或 API 成本不高的前提下,在整个组织中实施高级语言 AI。

  4. 快速原型设计:快速开发并迭代 AI 驱动的特性和产品。

  5. 本地部署:轻松在本地基础设施上托管 Arcee Spark,以增强数据隐私和安全性。

性能和效率

Arcee Spark 证明了在语言模型的世界中,更大的不一定是更好的。通过利用先进的训练技术和管理体系架构优化,它提供了:

  • 速度:惊人的推理时间,通常比大模型快 10-100 倍。
  • 效率:显著降低计算需求,降低了成本和环境影响。
  • 灵活性:易于微调或适应特定领域或任务。

尽管体积紧凑,但 Arcee Spark 提供强大的推理能力,使其适用于包括以下在内的广泛复杂任务:

  • 高级文本生成
  • 详细的问答
  • 细微的情绪分析
  • 复杂的问题解决
  • 代码生成和分析

模型可用性

  • Quants: Arcee Spark GGUF
  • FP32:对于那些希望最大限度地发挥模型性能的人来说,我们提供了一个FP32 版本,全部基准评分略高。

基准评估

Benchmark Results
Additional Benchmark Results
Bigbenchhard Results

MT-Bench

########## First turn ##########
                     score
model       turn          
arcee-spark 1     8.777778
########## Second turn ##########
                     score
model       turn          
arcee-spark 2     8.164634
########## Average ##########
                score
model                
arcee-spark  8.469325

EQ-Bench

EQ-Bench: 71.4

TruthfulQA

任务 版本 指标 Stderr
truthfulqa_mc 1 mc1 0.4382 ± 0.0174
mc2 0.6150 ± 0.0155

AGI-Eval

任务 版本 指标 Stderr
agieval_aqua_rat 0 acc 0.3937 ± 0.0307
acc_norm 0.3937 ± 0.0307
agieval_logiqa_en 0 acc 0.4731 ± 0.0196
acc_norm 0.4854 ± 0.0196
agieval_lsat_ar 0 acc 0.2783 ± 0.0296
acc_norm 0.3000 ± 0.0303
agieval_lsat_lr 0 acc 0.5549 ± 0.0220
acc_norm 0.5451 ± 0.0221
agieval_lsat_rc 0 acc 0.6022 ± 0.0299
acc_norm 0.6208 ± 0.0296
agieval_sat_en 0 acc 0.8155 ± 0.0271
acc_norm 0.8107 ± 0.0274
agieval_sat_en_without_passage 0 acc 0.4806 ± 0.0349
acc_norm 0.4612 ± 0.0348
agieval_sat_math 0 acc 0.4909 ± 0.0338
acc_norm 0.4545 ± 0.0336

AGI-eval 平均值:51.11

GPT4All 评估

任务 版本 指标 Stderr
arc_challenge 0 acc 0.5333 ± 0.0146
acc_norm 0.5640 ± 0.0145
arc_easy 0 acc 0.8131 ± 0.0080
acc_norm 0.7668 ± 0.0087
boolq 1 acc 0.8471 ± 0.0063
hellaswag 0 acc 0.6206 ± 0.0048
acc_norm 0.8118 ± 0.0039
openbookqa 0 acc 0.3560 ± 0.0214
acc_norm 0.4600 ± 0.0223
piqa 0 acc 0.7987 ± 0.0094
acc_norm 0.8030 ± 0.0093
winogrande 0 acc 0.7690 ± 0.0130

Gpt4al 平均值:69.37

Big Bench Hard

任务 版本 指标 Stderr
bigbench_causal_judgement 0 multiple_choice_grade 0.6053 ± 0.0356
bigbench_date_understanding 0 multiple_choice_grade 0.6450 ± 0.0249
bigbench_disambiguation_qa 0 multiple_choice_grade 0.5233 ± 0.0312
bigbench_geometric_shapes 0 multiple_choice_grade 0.2006 ± 0.0212
exact_str_match 0.0000 ± 0.0000
bigbench_logical_deduction_five_objects 0 multiple_choice_grade 0.2840 ± 0.0202
bigbench_logical_deduction_seven_objects 0 multiple_choice_grade 0.2429 ± 0.0162
bigbench_logical_deduction_three_objects 0 multiple_choice_grade 0.4367 ± 0.0287
bigbench_movie_recommendation 0 multiple_choice_grade 0.4720 ± 0.0223
bigbench_navigate 0 multiple_choice_grade 0.4980 ± 0.0158
bigbench_reasoning_about_colored_objects 0 multiple_choice_grade 0.5600 ± 0.0111
bigbench_ruin_names 0 multiple_choice_grade 0.4375 ± 0.0235
bigbench_salient_translation_error_detection 0 multiple_choice_grade 0.2685 ± 0.0140
bigbench_snarks 0 multiple_choice_grade 0.7348 ± 0.0329
bigbench_sports_understanding 0 multiple_choice_grade 0.6978 ± 0.0146
bigbench_temporal_sequences 0 multiple_choice_grade 0.4060 ± 0.0155
bigbench_tracking_shuffled_objects_five_objects 0 multiple_choice_grade 0.2072 ± 0.0115
bigbench_tracking_shuffled_objects_seven_objects 0 multiple_choice_grade 0.1406 ± 0.0083
bigbench_tracking_shuffled_objects_three_objects 0 multiple_choice_grade 0.4367 ± 0.0287

Big Bench 平均值:45.78

许可证

Arcee Spark 在 Apache 2.0 许可证下发布。

致谢

  • 感谢 Qwen2 团队的基础工作
  • 感谢开源 AI 社区提供的宝贵工具和数据集
  • 我们专注的研究和工程师团队,他们不断拓展紧凑型语言模型可能性的边界

https://hugging-face.cn/arcee-ai/Arcee-Spark/