9 Pulls 更新于8周前
更新于8周前
8周前
137754ea441a · 15GB
模型
架构qwen2
·
参数7.62B
·
量化F16
15GB
params
{"stop":["<|im_start|>","<|im_end|>"]}
59B
template
{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>
182B
README
Arcee Spark
Arcee Spark 是一个强大的 7B 参数语言模型,其性能远超其重量级。此模型基于 Qwen2 初始化,经过了一流的训练过程
- 在 180 万个样本上微调
- 使用 Arcee 的 mergekit 与 Qwen2-7B-Instruct 合并
- 进一步使用直接偏好优化 (DPO) 进行精炼
这个细致入微的过程产生了卓越的性能,Arcee Spark 在其尺度的模型中取得了 MT-Bench 的高分,甚至在许多任务上超过了 GPT-3.5。
关键特性
- 700亿参数
- 最适合其规模的最新性能
- 从 Qwen2 初始化
- 包括微调、合并和 DPO 在内的先进训练过程
- 7B 级别中最高 MT-Bench 分数
- 在许多任务上优于 GPT-3.5
- 上下文长度为 128k 个标记,非常适合需要许多对话转型的任务或处理大量文本的工作。
商业应用案例
Arcee Spark 为那些希望利用高级 AI 功能而又不需要更大模型重型计算需求的企业提供了一个极具吸引力的解决方案。它的小尺寸和高性能组合使其非常适合:
实时应用:在聊天机器人、客户服务自动化和需要低延迟的交互式系统中部署 Arcee Spark。
边缘计算:在边缘设备或资源受限的环境中运行复杂的 AI 任务。
成本效益扩展:在基础设施或 API 成本不高的前提下,在整个组织中实施高级语言 AI。
快速原型设计:快速开发并迭代 AI 驱动的特性和产品。
本地部署:轻松在本地基础设施上托管 Arcee Spark,以增强数据隐私和安全性。
性能和效率
Arcee Spark 证明了在语言模型的世界中,更大的不一定是更好的。通过利用先进的训练技术和管理体系架构优化,它提供了:
- 速度:惊人的推理时间,通常比大模型快 10-100 倍。
- 效率:显著降低计算需求,降低了成本和环境影响。
- 灵活性:易于微调或适应特定领域或任务。
尽管体积紧凑,但 Arcee Spark 提供强大的推理能力,使其适用于包括以下在内的广泛复杂任务:
- 高级文本生成
- 详细的问答
- 细微的情绪分析
- 复杂的问题解决
- 代码生成和分析
模型可用性
- Quants: Arcee Spark GGUF
- FP32:对于那些希望最大限度地发挥模型性能的人来说,我们提供了一个FP32 版本,全部基准评分略高。
基准评估
MT-Bench
########## First turn ##########
score
model turn
arcee-spark 1 8.777778
########## Second turn ##########
score
model turn
arcee-spark 2 8.164634
########## Average ##########
score
model
arcee-spark 8.469325
EQ-Bench
EQ-Bench: 71.4
TruthfulQA
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| truthfulqa_mc | 1 | mc1 | 0.4382 | ± | 0.0174 |
| mc2 | 0.6150 | ± | 0.0155 |
AGI-Eval
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| agieval_aqua_rat | 0 | acc | 0.3937 | ± | 0.0307 |
| acc_norm | 0.3937 | ± | 0.0307 | ||
| agieval_logiqa_en | 0 | acc | 0.4731 | ± | 0.0196 |
| acc_norm | 0.4854 | ± | 0.0196 | ||
| agieval_lsat_ar | 0 | acc | 0.2783 | ± | 0.0296 |
| acc_norm | 0.3000 | ± | 0.0303 | ||
| agieval_lsat_lr | 0 | acc | 0.5549 | ± | 0.0220 |
| acc_norm | 0.5451 | ± | 0.0221 | ||
| agieval_lsat_rc | 0 | acc | 0.6022 | ± | 0.0299 |
| acc_norm | 0.6208 | ± | 0.0296 | ||
| agieval_sat_en | 0 | acc | 0.8155 | ± | 0.0271 |
| acc_norm | 0.8107 | ± | 0.0274 | ||
| agieval_sat_en_without_passage | 0 | acc | 0.4806 | ± | 0.0349 |
| acc_norm | 0.4612 | ± | 0.0348 | ||
| agieval_sat_math | 0 | acc | 0.4909 | ± | 0.0338 |
| acc_norm | 0.4545 | ± | 0.0336 |
AGI-eval 平均值:51.11
GPT4All 评估
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| arc_challenge | 0 | acc | 0.5333 | ± | 0.0146 |
| acc_norm | 0.5640 | ± | 0.0145 | ||
| arc_easy | 0 | acc | 0.8131 | ± | 0.0080 |
| acc_norm | 0.7668 | ± | 0.0087 | ||
| boolq | 1 | acc | 0.8471 | ± | 0.0063 |
| hellaswag | 0 | acc | 0.6206 | ± | 0.0048 |
| acc_norm | 0.8118 | ± | 0.0039 | ||
| openbookqa | 0 | acc | 0.3560 | ± | 0.0214 |
| acc_norm | 0.4600 | ± | 0.0223 | ||
| piqa | 0 | acc | 0.7987 | ± | 0.0094 |
| acc_norm | 0.8030 | ± | 0.0093 | ||
| winogrande | 0 | acc | 0.7690 | ± | 0.0130 |
Gpt4al 平均值:69.37
Big Bench Hard
| 任务 | 版本 | 指标 | 值 | Stderr | |
|---|---|---|---|---|---|
| bigbench_causal_judgement | 0 | multiple_choice_grade | 0.6053 | ± | 0.0356 |
| bigbench_date_understanding | 0 | multiple_choice_grade | 0.6450 | ± | 0.0249 |
| bigbench_disambiguation_qa | 0 | multiple_choice_grade | 0.5233 | ± | 0.0312 |
| bigbench_geometric_shapes | 0 | multiple_choice_grade | 0.2006 | ± | 0.0212 |
| exact_str_match | 0.0000 | ± | 0.0000 | ||
| bigbench_logical_deduction_five_objects | 0 | multiple_choice_grade | 0.2840 | ± | 0.0202 |
| bigbench_logical_deduction_seven_objects | 0 | multiple_choice_grade | 0.2429 | ± | 0.0162 |
| bigbench_logical_deduction_three_objects | 0 | multiple_choice_grade | 0.4367 | ± | 0.0287 |
| bigbench_movie_recommendation | 0 | multiple_choice_grade | 0.4720 | ± | 0.0223 |
| bigbench_navigate | 0 | multiple_choice_grade | 0.4980 | ± | 0.0158 |
| bigbench_reasoning_about_colored_objects | 0 | multiple_choice_grade | 0.5600 | ± | 0.0111 |
| bigbench_ruin_names | 0 | multiple_choice_grade | 0.4375 | ± | 0.0235 |
| bigbench_salient_translation_error_detection | 0 | multiple_choice_grade | 0.2685 | ± | 0.0140 |
| bigbench_snarks | 0 | multiple_choice_grade | 0.7348 | ± | 0.0329 |
| bigbench_sports_understanding | 0 | multiple_choice_grade | 0.6978 | ± | 0.0146 |
| bigbench_temporal_sequences | 0 | multiple_choice_grade | 0.4060 | ± | 0.0155 |
| bigbench_tracking_shuffled_objects_five_objects | 0 | multiple_choice_grade | 0.2072 | ± | 0.0115 |
| bigbench_tracking_shuffled_objects_seven_objects | 0 | multiple_choice_grade | 0.1406 | ± | 0.0083 |
| bigbench_tracking_shuffled_objects_three_objects | 0 | multiple_choice_grade | 0.4367 | ± | 0.0287 |
Big Bench 平均值:45.78
许可证
Arcee Spark 在 Apache 2.0 许可证下发布。
致谢
- 感谢 Qwen2 团队的基础工作
- 感谢开源 AI 社区提供的宝贵工具和数据集
- 我们专注的研究和工程师团队,他们不断拓展紧凑型语言模型可能性的边界