一个基于Llama 3的开放权重函数调用模型,在函数调用能力方面与GPT-4o竞争。

工具 70b

19K 7 个月前

自述文件

Firefunction-v2在函数调用能力方面与GPT-4o竞争,在一系列公共基准测试中得分为0.81,而GPT-4o的得分为0.80。

Firefunction-v2针对真实世界场景进行了优化,包括多轮对话、指令遵循和并行函数调用。它保留了Llama 3的多轮指令能力(在MT bench上的得分为0.84 vs 0.89),同时在函数调用任务上始终优于Llama 3(在Nexus并行多函数评估上的得分为0.51 vs 0.30)。

参考

博客文章

Hugging Face