免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


都是Kimi K2,表现却不同?我们测了多家服务商ToolCall性能,并开源了测试集

发布日期:2025-10-12 00:48:25 浏览次数: 1532
作者:Kimi 开放平台

微信搜一搜,关注“Kimi 开放平台”

推荐语

Kimi K2模型ToolCall性能差异大?我们实测12家服务商数据并开源测试集,帮你避开API选择陷阱。

核心内容:
1. 不同API服务商Kimi K2的ToolCall性能差异实测
2. 开源测试集与评估方法详解
3. 未来更多模型性能评估维度的规划

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

自 Kimi K2 发布以来,我们收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。

用户在选择 API 服务商时,往往优先考虑延迟更低、成本更低,却可能无意中忽略了更微妙却关键的模型精度差异

因此,我们推出 K2 Vendor Verifier 项目(https://github.com/MoonshotAI/K2-Vendor-Verifier),一方面为用户挑选 API 服务商提供参考,另一方面希望帮助模型服务商打造更加一致且高性能的 API 体验。

鉴于 ToolCall 能力是模型 Agent 性能的重要指标,也是 Kimi K2 模型的关键优势,ToolCall 能力成为 K2 Vendor Verifier 项目的第一项基准测试。昨天,我们更新了 ToolCall 基准测试的最新一期评测结果,一共有 12 家第三方 API 服务商参与其中。评估结果如下:

表中每项指标的定义如下:

我们的测试集有 4000 条数据,通过收集每个供应商的响应并与 Kimi K2 官方 API 进行对比得出上述评估结果。你可以在 Github 项目页的 samples.jsonl 文件中找到示例数据,我们已经将 50% 的测试数据开源,方便 API 服务商自行测试和复现。如果希望加入 ToolCall 性能评估,欢迎在 Github 留言。

ToolCall 能力只是模型性能表现的一个维度,我们在准备下一个性能评估的维度,你关心哪些性能指标?欢迎在这里(https://github.com/MoonshotAI/K2-Vendor-Verifier/issues/9)给我们留言互动,期待你的反馈。



最近更新

估值93亿美元,Agent用户超350万,云端开发托管平台「Vercel」已接入Kimi K2 Turbo API

上线 4 个月,月活 50 万,AI Coding 黑马「YouWare」接入 Kimi K2 API

Kimi K2 官方高速版 API 开启 5 折特惠

Kimi K2 模型更新,带来更强的代码能力、更快的 API

Kimi K2 又又又提速了!

Kimi K2 高速版发布!

Kimi Playground: 一站式体验 Kimi K2 的工具调用能力

Kimi K2 发布并开源,擅长代码与 Agentic 任务

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询