firefunction-v2:70b-q6_K

Firefunction-v2 在函数调用能力上与 GPT-4o 具有竞争力，在一系列公共基准测试中得分为 0.81，而 GPT-4o 的得分为 0.80。

Firefunction-v2 针对真实世界的场景进行了优化，包括多轮对话、指令遵循和并行函数调用。它保留了 Llama 3 的多轮指令能力（在 MT bench 上得分为 0.84，而 Llama 3 为 0.89），同时在函数调用任务上始终优于 Llama 3（在 Nexus 并行多函数评估中得分为 0.51，而 Llama 3 为 0.30）。