微信扫码
添加专属顾问
我要投稿
AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了能全面评估模型的工具使用能力,司南及合作伙伴团队推出了 T-Eval 评测基准,相关成果论文已被ACL 2024主会录用。
因此,为了更全面地评估大语言模型的工具使用能力,司南及合作伙伴团队推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 评测基准,相较于之前整体评估模型的方式,论文中将大模型的工具使用分解为多个子过程,包括:规划、推理、检索、理解、指令跟随和审查。
然后,我们利用 GPT-3.5 生成了初始问题,并通过 GPT-4 进一步完善问题。之后,我们开发了一个多智能体框架,利用所提供的工具解决问题,同时收集解决方案路径和工具响应。最后,我们使用人类专家来挑选高质量样本。
细粒度评测:T-Eval将评测过程分解为多个子任务,分别评估模型在工具使用上的细粒度能力。
多智能体数据生成:使用了由人类专家验证的多智能体数据生成流程,显著减少了外部因素的影响,使评测结果更加稳定、公平。
广泛实验:通过在各种大模型上的广泛实验,验证了T-Eval的有效性和普适性,为当前大语言模型的工具使用能力瓶颈提供了宝贵的见解,并为改进工具使用能力提供了新的视角。T-Eval 现已加入 OpenCompass 评测平台,更多详细内容可参考以下链接!
GitHub:
https://github.com/open-compass/T-Eval
OpenCompass官网:
https://hub.opencompass.org.cn/dataset-detail/T-Eval
联系我们:
opencompass@pjlab.org.cn
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-09
谁来给企业端即将大规模入职的Agent盖办公室?
2026-05-09
鹅厂员工觉得好的code模型应该具备什么能力?
2026-05-09
Markdown要被抛弃了?Claude Code工程师自曝:我已彻底放弃使用Markdown!团队倾向使用HTML!网友:其他编辑工具会被淘汰吗?
2026-05-09
“Claude Code 你就作吧,我换 Codex 了”
2026-05-09
LLM 输出到这步才算可靠:生产级输出验证与质量工程实战
2026-05-09
OpenAI发布Codex for Chrome,能自动操控浏览器干活了!
2026-05-08
Codex Chrome 插件实测:多标签并行后,AI 浏览器代理终于顺手了
2026-05-08
AI吞噬软件的叙事要分化了?
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-04-07
2026-03-17
2026-03-17
2026-03-21
2026-04-07
2026-02-20
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18