微信扫码
添加专属顾问
我要投稿
美团LongCat团队推出VitaBench,首个基于外卖、餐饮、旅游三大真实场景的智能体评测基准,揭示当前领先模型成功率仅30%的现状。 核心内容: 1. VitaBench构建66个工具的交互环境,模拟复杂生活场景任务 2. 首次从推理、工具使用、用户交互三大维度量化智能体表现 3. 开源项目助力解决现有基准与真实场景应用间的四大差距
今天,美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。
VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。
我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。我们发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。
随着大语言模型在复杂推理与工具调用能力上的快速进步,基于LLM的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:
工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求;
信息密度不足:大多数相关基准仅关注单一类型信息,未能反映真实应用场景中多源信息(时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等)的综合处理需求;
模型探索性受限:现有基准为了模拟真实生活场景,通常会将领域知识组装成冗长的 Policy 文档要求模型遵循,但是这种做法会限制模型在复杂环境中探索解空间的自主性。同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;
交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度;
通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织——
交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。
为系统衡量这三重挑战下的模型表现,团队构建了VitaBench,一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。
VitaBench 的评测榜单未来将长期维护更新,欢迎持续关注:
项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/abs/2509.26490
代码仓库:https://github.com/meituan-longcat/vitabench
数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard
通过将Agent在环境中与User、Tool交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench进一步将智能体任务复杂度拆解到各个方面进行量化并提升:
推理复杂度(𝒞_reason)
量化智能体需要在部分可观测环境中整合信息量,具体通过以下指标衡量:
基于此,VitaBench构建了大规模真实环境数据库,其中单个任务可涉及5-20个服务提供商、最多超过100个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。
工具复杂度(𝒞_tool)
如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,那么工具复杂度可以通过以下指标衡量:
基于此,VitaBench从三个场景中提炼出66个真实工具并构建有向图,将领域规则编码到图结构中。其中工具通过Python函数实现,确保工具调用结果的稳定性和一致性。
交互复杂度(𝒞_interact)
反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:
基于此,VitaBench为每个任务都配备了一个独特的用户角色,并通过UserSimulator扮演,逐步向Agent提出需求。
VitaBench通过两阶段流程构建:
阶段一:框架设计
阶段二:任务创建
每个任务均由多名专业标注人员和领域专家进行多次校验与复核,既确保任务具备足够的复杂度,又保证其可以顺利完成。数据统计结果如下表所示:
针对长轨迹评估的复杂性,VitaBench团队还提出了基于Rubric的滑动窗口评估器。
传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为,无法对Agent完成任务的过程进行有效监督。VitaBench借鉴最新研究,将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。
评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个Rubric的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。
这种细粒度的设计不仅显著提升了评估的可解释性,也为未来的强化学习工作提供了更密集、更可靠的反馈信号。
团队在VitaBench上评测了包括GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash等在内的20余款主流大模型。
实验设置:
实验结果表明:
跨场景任务带来极大挑战:即使是测试中表现最佳的o3(high)模型,跨场景Avg@4成功率也仅为30.0%,远低于单场景任务的48.3%,表明当前模型在跨域工具协调与意图整合方面存在根本性短板。
多次尝试(探索)可以提升性能,但同样稳定性堪忧:尽管Pass@4(至少一次成功)可达60%,但Pass^4(四次全成功)接近0%,说明模型行为高度不稳定,难以满足生产环境可靠性要求。
“思考型”模型显著优于“非思考型”:启用链式推理(thinking)的模型普遍提升5–8个百分点,且交互轮次更少,说明深度规划对复杂任务至关重要。
复杂性消融实验
团队进一步通过消融实验,验证了VitaBench所提出的三大复杂性维度的有效性:
推理复杂性:任务所需推理点数量与成功率呈强负相关。在线旅行与跨场景任务平均包含9.7–10.3个推理点,搜索空间相比其他两个领域高出一个量级,成功率也更低。
工具复杂性:工具图的节点与边数量越多,任务越难。跨场景任务涉及66个工具、512条依赖边,是所有任务中最复杂的,成功率也最低。
交互复杂性:在「直接告诉Agent完整指令(无用户交互)」条件下,模型成功率显著提升;而引入真实用户模拟器(包含完整人物特征和行为属性)后,性能下降15–25个百分点,尤其对弱模型影响更大。
用户模拟器与评估器可靠性验证
为确保评测结果可信,团队对两个核心组件进行了严格验证:
用户模拟器:在信息保真度(9.48/10)与人格一致性(9.34/10)两项指标上均表现优异,能准确模拟不同用户行为和偏好,且不违背任务要求。
滑动窗口评估器:与人工标注相比,Cohen’s κ达0.828,显著优于无Rubric或无滑动窗口的基线方法。
典型失败案例分析
在对模型错误案例的系统分析中,团队归纳出代表性三大错误类别:推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)。
分析发现,当前模型普遍存在以下具有代表性的失误模式:
这些问题表明,当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间,为后续研究提供了明确方向。
VitaBench 不仅是一个评测基准,更是一套关于「Agentic Task Complexity」的理论框架。它首次系统量化了推理、工具与交互三大维度对智能体性能的影响,并揭示了当前模型在真实生活场景中的能力边界。
我们的目标不仅仅是测量现有模型的智能,更是开启「AI 下半场」,实现通往实用智能体的最后一公里。正如其名 “Vita”(拉丁语 “生命, 生活”)所寓意的:智能的终极考场,不在实验室,而在生活本身。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-20
万字长文深度解析最新Deep Research技术:前沿架构、核心技术与未来展望
2025-10-20
端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法
2025-10-20
Prompt 工程进阶——让 DeepSeek 学会你的测试风格
2025-10-20
几乎都在挂羊头卖狗肉,AI Agent的泡沫现在到底有多大?
2025-10-20
AI Agent 上下文管理:基于搭叩的七大原则与实践
2025-10-20
当 AI 走进前端开发:代理插件的全流程开发实践
2025-10-20
AI Workflow Builder王炸劝退:n8n、Coze、Dify等AI工作流不要学了
2025-10-20
AIOps探索:做AIOps智能体,是直接调用公共大模型还是要部署私有大模型?
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-09-17
2025-08-19
2025-10-02
2025-09-29
2025-10-20
2025-10-20
2025-10-19
2025-10-18
2025-10-18
2025-10-18
2025-10-16
2025-10-16