一个基于 Llama 3 的开放权重函数调用模型,在函数调用能力上与 GPT-4o 相媲美。

工具 70b

19K 7 个月前

自述文件

Firefunction-v2 在函数调用能力上与 GPT-4o 相媲美,在公开基准测试混合体中得分为 0.81,而 GPT-4o 的得分为 0.80。

Firefunction-v2 针对现实世界的场景进行了优化,包括多轮对话、指令跟随和并行函数调用。 它保留了 Llama 3 的多轮指令能力(MT bench 上的得分分别为 0.84 和 0.89),同时在函数调用任务上始终优于 Llama 3(Nexus 并行多函数评估上的得分分别为 0.51 和 0.30)

参考

博客文章

Hugging Face