9 Pulls 8周前更新

读我

Arcee Spark

Arcee Spark

Arcee Spark 是一个强大的 70 亿参数语言模型,性能远超其规模。从 Qwen2 初始化,经过了复杂的训练过程

  1. 在 18 万个样本上进行微调
  2. 使用阿ceed Spark 的 mergekit 将 Qwen2-7B-Instruct 合并到一起
  3. 使用直接偏好优化(DPO)进一步优化

这一严谨的过程实现了卓越的性能表现,Arcee Spark 在其规模类别的 MT-Bench 上取得了最高分,甚至在许多任务上超过了 GPT-3.5。

关键特性

  • 70亿个参数
  • 同规模类别中的最先进性能
  • 从 Qwen2 初始化
  • 高级训练过程,包括微调、合并和 DPO
  • 7B 级别中 MT-Bench 的最高分
  • 在许多任务上超过 GPT-3.5
  • 具有128k个标记的内容长度,使其非常适合需要许多对话回合或处理大量文本的任务。

商业应用场景

Arcee Spark 为那些希望利用先进的AI能力但无需大型模型的沉重计算需求的商业机构提供了一个有吸引力的解决方案。它独特的小尺寸和高性能组合使其非常适合

  1. 实时应用:在需要低延迟的聊天机器人、客户服务自动化和交互式系统中部署 Arcee Spark。

  2. 边缘计算:在边缘设备或资源受限的环境中运行复杂的AI任务。

  3. 成本效益的扩展:在没有突破基础设施或API成本的情况下,在你的组织中实施高级语言AI。

  4. 快速原型设计:快速开发并迭代由AI驱动的功能和产品。

  5. 本地部署:轻松在本地基础设施上托管 Arcee Spark,以增强数据隐私和安全性。

性能和效率

Arcee Spark 证明了在语言模型的世界里,更大的不一定是更好的。通过利用高级训练技术和架构优化,它提供以下性能

  • 速度:闪电般的推理时间,通常比大型模型快10-100倍。
  • 效率:显著降低计算需求,降低成本并减少环境影响。
  • 灵活性:易于微调或适应特定领域或任务。

尽管体积紧凑,Arcee Spark 提供了深入推理能力,使其适合广泛复杂的任务,包括

  • 高级文本生成
  • 详细的问答
  • 细微的情感分析
  • 复杂问题解决
  • 代码生成和分析

模型可用性

  • 量算: Arcee Spark GGUF
  • FP32:对于那些希望从模型中榨取每一点性能的人来说,我们提供了一种 FP32 版本,在所有基准测试中得分略高。

基准测试和评估

Benchmark Results
Additional Benchmark Results
Bigbenchhard Results

MT-Bench

########## First turn ##########
                     score
model       turn          
arcee-spark 1     8.777778
########## Second turn ##########
                     score
model       turn          
arcee-spark 2     8.164634
########## Average ##########
                score
model                
arcee-spark  8.469325

EQ-Bench

EQ-Bench:71.4

TruthfulQA

任务 版本 指标 Stderr
truthfulqa_mc 1 mc1 0.4382 ± 0.0174
mc2 0.6150 ± 0.0155

AGI-Eval

任务 版本 指标 Stderr
agival_aqua_rat 0 acc 0.3937 ± 0.0307
acc_norm 0.3937 ± 0.0307
agieval_logiqa_en 0 acc 0.4731 ± 0.0196
acc_norm 0.4854 ± 0.0196
agieval_lsat_ar 0 acc 0.2783 ± 0.0296
acc_norm 0.3000 ± 0.0303
agival_lsat_lr 0 acc 0.5549 ± 0.0220
acc_norm 0.5451 ± 0.0221
agival_lsat_rc 0 acc 0.6022 ± 0.0299
acc_norm 0.6208 ± 0.0296
agival_sat_en 0 acc 0.8155 ± 0.0271
acc_norm 0.8107 ± 0.0274
agival_sat_en_without_passage 0 acc 0.4806 ± 0.0349
acc_norm 0.4612 ± 0.0348
agival_sat_math 0 acc 0.4909 ± 0.0338
acc_norm 0.4545 ± 0.0336

AGI-eval平均:51.11

GPT4All 评估

任务 版本 指标 Stderr
arc_challenge 0 acc 0.5333 ± 0.0146
acc_norm 0.5640 ± 0.0145
arc_easy 0 acc 0.8131 ± 0.0080
acc_norm 0.7668 ± 0.0087
boolq 1 acc 0.8471 ± 0.0063
hellaswag 0 acc 0.6206 ± 0.0048
acc_norm 0.8118 ± 0.0039
openbookqa 0 acc 0.3560 ± 0.0214
acc_norm 0.4600 ± 0.0223
piqa 0 acc 0.7987 ± 0.0094
acc_norm 0.8030 ± 0.0093
winogrande 0 acc 0.7690 ± 0.0130

Gpt4al 平均:69.37

Big Bench Hard

任务 版本 指标 Stderr
bigbench_causal_judgement 0 multiple_choice_grade 0.6053 ± 0.0356
bigbench_date_understanding 0 multiple_choice_grade 0.6450 ± 0.0249
bigbench_disambiguation_qa 0 multiple_choice_grade 0.5233 ± 0.0312
bigbench_geometric_shapes 0 multiple_choice_grade 0.2006 ± 0.0212
exact_str_match 0.0000 ± 0.0000
bigbench_logical_deduction_five_objects 0 multiple_choice_grade 0.2840 ± 0.0202
bigbench_logical_deduction_seven_objects 0 multiple_choice_grade 0.2429 ± 0.0162
bigbench_logical_deduction_three_objects 0 multiple_choice_grade 0.4367 ± 0.0287
bigbench_movie_recommendation 0 multiple_choice_grade 0.4720 ± 0.0223
bigbench_navigate 0 multiple_choice_grade 0.4980 ± 0.0158
bigbench_reasoning_about_colored_objects 0 multiple_choice_grade 0.5600 ± 0.0111
bigbench_ruin_names 0 multiple_choice_grade 0.4375 ± 0.0235
bigbench_salient_translation_error_detection 0 multiple_choice_grade 0.2685 ± 0.0140
bigbench_snarks 0 multiple_choice_grade 0.7348 ± 0.0329
bigbench_sports_understanding 0 multiple_choice_grade 0.6978 ± 0.0146
bigbench_temporal_sequences 0 multiple_choice_grade 0.4060 ± 0.0155
bigbench_tracking_shuffled_objects_five_objects 0 multiple_choice_grade 0.2072 ± 0.0115
bigbench_tracking_shuffled_objects_seven_objects 0 multiple_choice_grade 0.1406 ± 0.0083
bigbench_tracking_shuffled_objects_three_objects 0 multiple_choice_grade 0.4367 ± 0.0287

Big Bench 平均:45.78

许可

Arcee Spark 在 Apache 2.0 许可下发布。

致谢

  • Qwen2团队,感谢其基础工作
  • 开源AI社区,感谢其宝贵的工具和数据集
  • 我们的一支致力于研究工程师团队,他们不断突破紧凑型语言模型能实现的可能性的边界

https://hugging-face.cn/arcee-ai/Arcee-Spark/