9 Pulls 8周前更新
8周前更新
8周前
137754ea441a · 15GB
model
架构qwen2
·
参数7.62B
·
量化F16
15GB
params
{"stop":["<|im_start|>","<|im_end|>"]}
59B
template
{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>
182B
读我
Arcee Spark
Arcee Spark 是一个强大的 70 亿参数语言模型,性能远超其规模。从 Qwen2 初始化,经过了复杂的训练过程
- 在 18 万个样本上进行微调
- 使用阿ceed Spark 的 mergekit 将 Qwen2-7B-Instruct 合并到一起
- 使用直接偏好优化(DPO)进一步优化
这一严谨的过程实现了卓越的性能表现,Arcee Spark 在其规模类别的 MT-Bench 上取得了最高分,甚至在许多任务上超过了 GPT-3.5。
关键特性
- 70亿个参数
- 同规模类别中的最先进性能
- 从 Qwen2 初始化
- 高级训练过程,包括微调、合并和 DPO
- 7B 级别中 MT-Bench 的最高分
- 在许多任务上超过 GPT-3.5
- 具有128k个标记的内容长度,使其非常适合需要许多对话回合或处理大量文本的任务。
商业应用场景
Arcee Spark 为那些希望利用先进的AI能力但无需大型模型的沉重计算需求的商业机构提供了一个有吸引力的解决方案。它独特的小尺寸和高性能组合使其非常适合
实时应用:在需要低延迟的聊天机器人、客户服务自动化和交互式系统中部署 Arcee Spark。
边缘计算:在边缘设备或资源受限的环境中运行复杂的AI任务。
成本效益的扩展:在没有突破基础设施或API成本的情况下,在你的组织中实施高级语言AI。
快速原型设计:快速开发并迭代由AI驱动的功能和产品。
本地部署:轻松在本地基础设施上托管 Arcee Spark,以增强数据隐私和安全性。
性能和效率
Arcee Spark 证明了在语言模型的世界里,更大的不一定是更好的。通过利用高级训练技术和架构优化,它提供以下性能
- 速度:闪电般的推理时间,通常比大型模型快10-100倍。
- 效率:显著降低计算需求,降低成本并减少环境影响。
- 灵活性:易于微调或适应特定领域或任务。
尽管体积紧凑,Arcee Spark 提供了深入推理能力,使其适合广泛复杂的任务,包括
- 高级文本生成
- 详细的问答
- 细微的情感分析
- 复杂问题解决
- 代码生成和分析
模型可用性
- 量算: Arcee Spark GGUF
- FP32:对于那些希望从模型中榨取每一点性能的人来说,我们提供了一种 FP32 版本,在所有基准测试中得分略高。
基准测试和评估
MT-Bench
########## First turn ##########
score
model turn
arcee-spark 1 8.777778
########## Second turn ##########
score
model turn
arcee-spark 2 8.164634
########## Average ##########
score
model
arcee-spark 8.469325
EQ-Bench
EQ-Bench:71.4
TruthfulQA
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| truthfulqa_mc | 1 | mc1 | 0.4382 | ± | 0.0174 |
| mc2 | 0.6150 | ± | 0.0155 |
AGI-Eval
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| agival_aqua_rat | 0 | acc | 0.3937 | ± | 0.0307 |
| acc_norm | 0.3937 | ± | 0.0307 | ||
| agieval_logiqa_en | 0 | acc | 0.4731 | ± | 0.0196 |
| acc_norm | 0.4854 | ± | 0.0196 | ||
| agieval_lsat_ar | 0 | acc | 0.2783 | ± | 0.0296 |
| acc_norm | 0.3000 | ± | 0.0303 | ||
| agival_lsat_lr | 0 | acc | 0.5549 | ± | 0.0220 |
| acc_norm | 0.5451 | ± | 0.0221 | ||
| agival_lsat_rc | 0 | acc | 0.6022 | ± | 0.0299 |
| acc_norm | 0.6208 | ± | 0.0296 | ||
| agival_sat_en | 0 | acc | 0.8155 | ± | 0.0271 |
| acc_norm | 0.8107 | ± | 0.0274 | ||
| agival_sat_en_without_passage | 0 | acc | 0.4806 | ± | 0.0349 |
| acc_norm | 0.4612 | ± | 0.0348 | ||
| agival_sat_math | 0 | acc | 0.4909 | ± | 0.0338 |
| acc_norm | 0.4545 | ± | 0.0336 |
AGI-eval平均:51.11
GPT4All 评估
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| arc_challenge | 0 | acc | 0.5333 | ± | 0.0146 |
| acc_norm | 0.5640 | ± | 0.0145 | ||
| arc_easy | 0 | acc | 0.8131 | ± | 0.0080 |
| acc_norm | 0.7668 | ± | 0.0087 | ||
| boolq | 1 | acc | 0.8471 | ± | 0.0063 |
| hellaswag | 0 | acc | 0.6206 | ± | 0.0048 |
| acc_norm | 0.8118 | ± | 0.0039 | ||
| openbookqa | 0 | acc | 0.3560 | ± | 0.0214 |
| acc_norm | 0.4600 | ± | 0.0223 | ||
| piqa | 0 | acc | 0.7987 | ± | 0.0094 |
| acc_norm | 0.8030 | ± | 0.0093 | ||
| winogrande | 0 | acc | 0.7690 | ± | 0.0130 |
Gpt4al 平均:69.37
Big Bench Hard
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| bigbench_causal_judgement | 0 | multiple_choice_grade | 0.6053 | ± | 0.0356 |
| bigbench_date_understanding | 0 | multiple_choice_grade | 0.6450 | ± | 0.0249 |
| bigbench_disambiguation_qa | 0 | multiple_choice_grade | 0.5233 | ± | 0.0312 |
| bigbench_geometric_shapes | 0 | multiple_choice_grade | 0.2006 | ± | 0.0212 |
| exact_str_match | 0.0000 | ± | 0.0000 | ||
| bigbench_logical_deduction_five_objects | 0 | multiple_choice_grade | 0.2840 | ± | 0.0202 |
| bigbench_logical_deduction_seven_objects | 0 | multiple_choice_grade | 0.2429 | ± | 0.0162 |
| bigbench_logical_deduction_three_objects | 0 | multiple_choice_grade | 0.4367 | ± | 0.0287 |
| bigbench_movie_recommendation | 0 | multiple_choice_grade | 0.4720 | ± | 0.0223 |
| bigbench_navigate | 0 | multiple_choice_grade | 0.4980 | ± | 0.0158 |
| bigbench_reasoning_about_colored_objects | 0 | multiple_choice_grade | 0.5600 | ± | 0.0111 |
| bigbench_ruin_names | 0 | multiple_choice_grade | 0.4375 | ± | 0.0235 |
| bigbench_salient_translation_error_detection | 0 | multiple_choice_grade | 0.2685 | ± | 0.0140 |
| bigbench_snarks | 0 | multiple_choice_grade | 0.7348 | ± | 0.0329 |
| bigbench_sports_understanding | 0 | multiple_choice_grade | 0.6978 | ± | 0.0146 |
| bigbench_temporal_sequences | 0 | multiple_choice_grade | 0.4060 | ± | 0.0155 |
| bigbench_tracking_shuffled_objects_five_objects | 0 | multiple_choice_grade | 0.2072 | ± | 0.0115 |
| bigbench_tracking_shuffled_objects_seven_objects | 0 | multiple_choice_grade | 0.1406 | ± | 0.0083 |
| bigbench_tracking_shuffled_objects_three_objects | 0 | multiple_choice_grade | 0.4367 | ± | 0.0287 |
Big Bench 平均:45.78
许可
Arcee Spark 在 Apache 2.0 许可下发布。
致谢
- Qwen2团队,感谢其基础工作
- 开源AI社区,感谢其宝贵的工具和数据集
- 我们的一支致力于研究工程师团队,他们不断突破紧凑型语言模型能实现的可能性的边界