我要投稿

xBench：红杉中国发布的面向 AI Agent 的「常青基准」

发布日期：2025-05-26 19:36:41 浏览次数： 2501

作者：Renee 创业随笔

微信搜一搜，关注“Renee 创业随笔”

一、背景与目的

xBench 是红杉中国发布的一个新的 AI Agent 评估框架，其核心目标是：动态追踪 AI 的“通用智能”进展 + 实际应用价值（Utility）。

传统评测只关注学术题目，xBench 要追踪现实问题解决能力。

二、核心设计：双轨制

xBench 采用“双轨”框架： AI Evaluation Framework showing the evolution from Past AI Capabilities Evals to Future Utility Tasks, with AGI tracking and Profession Aligned paths

评估类型	目标能力	特点说明
AGI Tracking	推理、工具使用、记忆等模型核心能力	接续 academic benchmarks 但常更新
Profession-Aligned	真实商业环境中的 KPI 任务完成能力	与领域专家共建，反映落地价值

三、为何构建 xBench

1. 与真实价值脱节： 很多 benchmark 解决的只是“更难的题”，但现实世界更关心解决实际问题。

2. 静态测试集容易被“刷榜”： 模型过拟合静态数据，无法长期跟踪谁在真正进步。

四、xBench 的亮点

动态更新：不同于传统静态评测集，xBench 是“活”的 benchmark。
技术-市场匹配度（TMF）追踪：关注哪个模型最接近市场需求。
开放第三方评测机制：尤其 AGI Track，面向社区开放，保证公平性。

AGI Tracking

AGI Tracking 是 xBench 的「基础智能评估」轨道，目标是：

系统性评估通向 AGI（人工通用智能）过程中的关键能力。

它将 Agent 能力划分为四大维度：

基础智能（Fundamental Intelligence）
专业能力（Professional Capabilities）
创新能力（Innovation Capacity）
组织能力（Organizational Abilities）

这四大维度共同构成了一个「能力矩阵」，每个维度下再细分出多个子能力。如下图所示：

? 每项能力，具体评估什么

类别	能力模块	评估任务描述
Fundamental Intelligence	Knowledge	掌握广泛的人类知识（ScienceQA）
	Multimodality	多模态信息整合（视觉、语音、文本）
	Reasoning	多步推理，复杂逻辑链路能力
	Reliability	模型的安全性、幻觉控制、置信度标定
Professional Capabilities	Tool Usage	工具调用与组合任务（AI Search）
	Long-term Memory	可控、低成本、高容量的记忆力
	Test-time Learning	零样本/少样本学习能力
Innovation Capacity	Problem Identification	提出有价值问题的能力
	Active Learning & Self-Improvement	主动修正弱点、持续优化自我
Organizational Abilities	Collaboration	多 Agent 协同，形成规模效应
	Competition	在博弈或信息不对称环境中胜出

其中绿色 Active 表示当前已上线 benchmark：

✅ 知识能力（Knowledge）：使用 ScienceQA benchmark，评估模型对人类广泛知识的掌握。
✅ 工具使用能力（Tool Usage）：通过 AI Search benchmark，评估模型与工具交互与操控的能力。

其余模块均为「Benchmark coming soon」，后续将会逐步“点亮”。

为什么这很重要

传统 benchmark 像一次考试，而 AGI Tracking 更像是：

一个全天候、多维度、动态更新的“AI 智能体质报告”。

三个关键点：

防刷榜机制（Contamination-Free）：每次测试都干净，防止模型靠记忆上榜。
真实能力地图：不以评分单一排序，而是关注整体能力布局。
反映非线性成长路径：有的模型组织力强，有的推理好——路径不同，但都值得追踪。

Profession-Aligned

Profession-Aligned 是 xBench 的职业能力评估轨道，强调：

AI 在具体行业工作流中的实用能力 + 人类偏好适配度。

这类评估不仅测试模型是否能完成任务，还强调：

是否懂流程（Workflow-aware）
是否有输出质量（符合 KPI 要求）
是否理解人类偏好（Human-centered）

当前已上线的专业领域（截至 2025.5）

目前已有两个行业场景开放 benchmark：

HR（人力资源） - AI 招聘官、面试助手、绩效评估等任务
Marketing（市场营销） - 竞品分析、活动策划、内容撰写等任务

其余如 Sales、Finance、Legal、Engineering、Product、Design 等板块尚未上线，但已规划中。

如何测试「专业能力」

xBench 的 Profession-Aligned 路线强调三件事：

1. 任务场景真实

评估任务源自真实公司流程和业务需求，而非人为拼凑的题库。

2. 人类反馈驱动

加入“人偏好评分”（Human preference scoring），衡量输出是否令人满意。

3. KPI 对齐

每个任务与岗位关键绩效指标（KPI）强绑定，确保“能力等于产出”。

这意味着，你测出来的“AI 营销助理分数”，能直接反映它是否值得你“雇佣”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

2026-05-26

面壁智能BitCPM-CANN：端侧AI的内存革命

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部