微信扫码
添加专属顾问
我要投稿
红杉中国发布全新AI Agent评估框架,旨在动态追踪AI的通用智能和实际应用价值。 核心内容: 1. xBench的背景与目的:动态追踪AI的通用智能进展和实际应用价值 2. 核心设计:采用"双轨"框架,评估模型的核心能力和商业环境中的KPI任务完成能力 3. xBench的亮点:动态更新、技术-市场匹配度追踪、开放第三方评测机制
一、背景与目的
xBench 是红杉中国发布的一个新的 AI Agent 评估框架,其核心目标是:动态追踪 AI 的“通用智能”进展 + 实际应用价值(Utility)。
传统评测只关注学术题目,xBench 要追踪现实问题解决能力。
xBench 采用“双轨”框架:
AGI Tracking | ||
Profession-Aligned |
1. 与真实价值脱节: 很多 benchmark 解决的只是“更难的题”,但现实世界更关心解决实际问题。
2. 静态测试集容易被“刷榜”: 模型过拟合静态数据,无法长期跟踪谁在真正进步。
AGI Tracking 是 xBench 的「基础智能评估」轨道,目标是:
系统性评估通向 AGI(人工通用智能)过程中的关键能力。
它将 Agent 能力划分为四大维度:
这四大维度共同构成了一个「能力矩阵」,每个维度下再细分出多个子能力。如下图所示:
Fundamental Intelligence | ||
Professional Capabilities | ||
Innovation Capacity | ||
Organizational Abilities | ||
其中绿色 Active 表示当前已上线 benchmark:
其余模块均为「Benchmark coming soon」,后续将会逐步“点亮”。
传统 benchmark 像一次考试,而 AGI Tracking 更像是:
一个全天候、多维度、动态更新的“AI 智能体质报告”。
三个关键点:
Profession-Aligned 是 xBench 的职业能力评估轨道,强调:
AI 在具体行业工作流中的实用能力 + 人类偏好适配度。
这类评估不仅测试模型是否能完成任务,还强调:
目前已有两个行业场景开放 benchmark:
HR(人力资源) - AI 招聘官、面试助手、绩效评估等任务
Marketing(市场营销) - 竞品分析、活动策划、内容撰写等任务
其余如 Sales、Finance、Legal、Engineering、Product、Design 等板块尚未上线,但已规划中。
xBench 的 Profession-Aligned 路线强调三件事:
评估任务源自真实公司流程和业务需求,而非人为拼凑的题库。
加入“人偏好评分”(Human preference scoring),衡量输出是否令人满意。
每个任务与岗位关键绩效指标(KPI)强绑定,确保“能力等于产出”。
这意味着,你测出来的“AI 营销助理分数”,能直接反映它是否值得你“雇佣”。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-12
系统综述:GenAI教育研究仍处于起步阶段
2025-10-12
都是Kimi K2,表现却不同?我们测了多家服务商ToolCall性能,并开源了测试集
2025-10-12
中央网信办、国家发展改革委印发《政务领域人工智能大模型部署应用指引》
2025-10-11
Spring AI Alibaba实践|后台定时Agent
2025-10-11
Google Cloud 重磅发布 Gemini Enterprise,重新定义企业级 AI
2025-10-11
Aiops探索:基于Dify+k8s+prometheus+Loki的aiops方案设计
2025-10-11
Anthropic重磅研究:只需250个文档,就能给任意大模型投毒
2025-10-11
AI Infra的演进与挑战:从OpenAI生产事故到未来展望
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28
2025-09-27