微信扫码
添加专属顾问
我要投稿
别被万亿市场冲昏头脑,AI Agent的真实能力与局限一文说透。核心内容: 1. 当前AI Agent市场的泡沫与真实能力对比 2. 区分"军师"与"将军":真正Agent的关键特征 3. 阻碍AI Agent发展的三大技术瓶颈
2025年7月,高盛发布了一份名为《AI代理将提升生产力并扩大软件市场规模》[1]的报告,再次为火热的AI市场添了一把猛火。报告用冷静而确凿的数字预测:在AI Agent的驱动下,软件市场规模将至少扩大20%,到2030年,仅应用软件市场就将达到惊人的7800亿美元。
这份报告,连同此前如AI程序员Devin[2]引发的病毒式传播,共同描绘了一幅激动人心的图景:一个无所不能的“数字员工”即将诞生,它能听懂你的任何指令,操作你的电脑,完成从订机票到写代码的一切复杂任务。一个全新的万亿级市场似乎正在我们眼前展开。
然而,事实果真如此吗?AI Agent到底是未来的革命,还是新一轮被资本精心包装的泡沫?这个问题,或许加拿大航空(Air Canada)的法务部门,有比我们更痛的领悟。
本文不唱赞歌,也不泼冷水。我们将带你穿透喧嚣,用高盛的数据和产业一线的真实案例,为你还原一个不掺水分的AI Agent。因为我们相信,只有挤掉泡沫,才能看到真正的金子。
让我们先厘清一个核心问题:我们谈论的Agent,到底是什么?
如果你脑海中浮现的是一个像电影《她》里面那样善解人意的全能伙伴,那么你可能误解了。高盛在报告中一针 unha血地指出,他们通过行业调研发现,“我们发现的大多数例子都可以被描述为与LLM进行基本集成的聊天机器人(chatbots with basic integrations)”。
这句话揭示了一个残酷的真相:当前市面上绝大多数所谓的“Agent”,本质上只是套着Agent外壳的“高级聊天机器人”,距离真正的自主智能体,差之千里。
要理解这种差异,我们可以用一个生动的类比。
过去的大语言模型(LLM),像一个博学的“军师”。你问一句,他答一句,被动地提供建议。他能告诉你如何攻城,但他自己不会带兵打仗。
而一个真正的Agent,应该是一个能独立带兵打仗的“将军”。你只需下达“拿下那座城池”的战略目标,他就能自主地进行侦查、规划、排兵布阵,甚至在遭遇意外时临机应变。他不仅“知道”,更能“做到”。
瑞典金融科技巨头Klarna的AI客服,就是这样一个“将军”的雏形。它不仅仅是回答“我的订单在哪里”,而是能直接访问订单系统,验证用户信息,处理退款申请,完成一系列过去只有人类才能执行的操作。在上线首月,这个AI“将军”就处理了公司三分之二的客服对话,相当于凭空多出了700名全职员工[3]。
相比之下,那些只能在预设流程里兜圈子,一旦遇到未知问题就让你“转人工”的客服,就是典型的“伪Agent”。
那么,为什么打造一个真正的“将军”那么难?因为在通往真正自主智能的道路上,横亘着三座难以逾越的大山。
首先是平台之困。目前,行业内还缺乏一个稳定、标准化的AI平台层。开发者们如同在流沙上盖楼,各种框架(如LangChain[4]、AutoGen[5])层出不穷,却都存在稳定性、复杂度和生产可运维性等短板。高盛也敏锐地指出,“平台层的标准化至少还需要12个月”。
其次是信任与安全之困。这个问题,我们可以用一个直击灵魂的拷问来概括:“你敢把公司的核心数据库权限,交给一个可能随时‘产生幻觉’的AI吗?” 微软在一份关于AI安全的报告[6]中披露,一种名为“间接提示注入”的攻击是AI Agent面临的头号风险之一。攻击者可以在网页或邮件中埋入恶意指令,诱导Agent越权操作或泄露敏感数据。在绝对的安全保障出现之前,任何企业都不敢将核心权限完全交予AI。
最后,也是最根本的,是可靠性与记忆之困。在真实世界的网页环境中,顶尖的AI Agent(基于GPT-4)端到端的任务成功率仅有约14.41%[7],而人类的成功率是78.24%。UI的微小改动、网络延迟、上下文的丢失,都可能导致Agent任务失败。Meta的首席AI科学家Yann LeCun更是直言,当前的技术范式不可能抵达人类智能[8],可靠的代理需要全新的“世界模型”作为基础。
前OpenAI科学家Andrej Karpathy也给出了一个冷静的判断:“2025不是代理之年,2025到2035是代理之十年。[9]”
理解了这些挑战,我们才能拨开迷雾,看清资本市场在这场游戏中,究竟在赌什么。
尽管挑战重重,但以高盛为代表的资本市场依然对AI Agent展现出极大的热情。他们究竟在赌什么?
答案或许会让很多人意外:资本不赌炫技,只赌苦力。
他们赌的不是那个能帮你规划完美假期、写一首情诗的通用AI伙伴,而是那些能扎根在特定行业,默默解决掉那些最繁琐、最高成本、最重复的“脏活累活”的“专家Agent”。
为什么?因为这些场景的投资回报率(ROI)最清晰,最容易被量化。
第一个被瞄准的,就是客服中心。 高盛报告中花了大量篇幅分析这个领域,并非偶然。客服中心是一个企业典型的成本中心,任何效率的提升都直接转化为利润。前面提到的Klarna,就为我们提供了一个完美的范本。它的AI客服不仅完成了700名员工的工作量,还将客户问题的平均解决时长从11分钟压缩到了2分钟,客户满意度与人工持平。更重要的是,这一切最终都指向一个冰冷但诱人的数字:预计为公司在2024年带来4000万美元的利润改善[10]。
Intercom Fin[11] | ||
Vodafone Italy[12] |
第二个战场,是销售和营销。 如果说客服是“省钱”,那么销售就是直接“赚钱”。一个能自动从海量数据中筛选潜在客户、发送千人千面的开发信、甚至完成初步沟通的销售Agent,对任何一家公司的诱惑力都是致命的。毕竟,谁能拒绝一个能让前漏斗转化率暴涨7倍[13]的“数字员工”呢?
第三个,也是最被寄予厚望的,是软件开发。 开发者的时间是科技公司最宝贵的资源。一个能自动写测试、修复bug、完成代码重构的AI Agent,无异于一台“研发永动机”。备受争议的Devin,尽管其实际能力仍在讨论中,但它所服务的客户,如巴西数字银行Nubank,却给出了惊人的数据:在一次大型数据管道迁移任务中,Devin帮助他们节省了12倍的工程工时和20倍的成本[14]。而更成熟的GitHub Copilot Workspace,在企业的大规模实测中,也证明能将开发者的任务完成速度提升约55%[15]。
看清了资本的赌注,我们就能理解,AI Agent这场革命的核心,并非创造一个无所不能的“新物种”,而是用AI武装传统软件,让它们从被动的“工具”,进化为主动的“劳力”。
这场进化,也正在引发一场软件行业权力的重新洗牌。
高盛的报告中有一张意味深长的图表,预测到2030年,AI Agent将占据软件市场超过60%的份额。
这意味着,未来的软件市场,将不再是无数个独立APP的集合。用户或许不再需要打开Salesforce去管理客户,打开Outlook去发邮件,打开Jira去提bug。他们只需要对一个统一的Agent下达指令:“帮我跟进一下上周接触的那个大客户,把我们的最新方案发给他,并在项目管理系统里创建一个跟进任务。”
在这场权力的新游戏中,三类玩家正在浮现:
而这三类玩家之间的激烈角逐,正以前所未有的速度,催化着一个更深刻的变革:软件行业长达数十年的商业模式,正在被彻底颠覆。
过去,我们为软件付费,是“买软件”,按人头、按订阅周期支付固定费用,无论你用不用,功能好不好。未来,我们将进入一个“买效果”的时代。你付费,是因为Agent帮你完成了一个销售订单,解决了一个客服问题,修复了一个代码bug。AI Agent时代,软件公司卖的不再是产品,而是结果。
这对用户是天大的好事,但对软件公司则是生与死的考验。它意味着,产品必须能创造实实在在的、可被量化的价值,否则就会被无情淘汰。
那么,面对这场已经到来的风暴,作为身处其中的个体,我们又该如何自处?
面对一个能7x24小时工作、不知疲倦、还能不断学习进化的“数字员工”,焦虑是人之常情。但与其焦虑被替代,不如思考一个更本质的问题:我们如何成为Agent的“主人”?
答案,就藏在一线员工与AI Agent协作的真实感受里。
在微软和埃森哲对GitHub Copilot的大规模研究[16]中,一个有趣的现象浮出水面:90%的开发者表示,使用Copilot让他们工作时更“有成就感”,95%的人表示“更享受编码”。AI并没有让他们觉得自己被贬低,反而将他们从繁琐的、重复的“样板代码”中解放出来。一位开发者在反馈中写道,Copilot让他找回了久违的“心流”,因为他终于可以不必把一半的精力耗费在回忆那些繁琐的API语法上了。
同样,销售团队在使用Outreach的AI教练[17]时,最受欢迎的功能是自动生成会议纪要和下一步行动建议。AI替他们完成了机械的记录工作,让他们能把全部精力投入到与客户建立关系、理解真实需求这些更“人性化”的工作上。
这些真实的反馈,为我们指明了在Agent时代的“生存法则”:从执行者,进化为指挥者。
具体来说,有三个核心能力将变得至关重要:
第一,拥抱“人机协同”,成为“AI项目经理”。你的价值不再是重复性地执行任务,而是像一个项目经理一样,负责定义目标(“我们这次营销活动的目标是什么?”)、监督过程(“AI生成的邮件是否符合我们的品牌调性?”)、以及处理复杂异常(“客户提出了一个AI无法理解的定制化需求,我该如何介入?”)。你的核心竞争力,将是策略、创意、同理心和人性化的判断力。
第二,提升“提问力”,成为“指令大师”。未来,最重要的技能之一,是如何向下达清晰、高效指令的能力。这不仅仅是把话说清楚,更是一种结构化的思考能力,一种将复杂目标分解为可执行步骤的能力。你能从Agent身上榨取多少价值,很大程度上取决于你“提问”的水平。
第三,强化“解读力”,成为“数据决策者”。Agent会为我们完成大量任务,并产生海量的数据和结果。但数据本身不会说话。理解这些数据背后的商业含义,发现其中的规律和异常,并基于此作出正确的商业决策,将是人类管理者不可替代的核心价值。
围绕这些新能力,一系列全新的岗位也正在快速涌现。企业开始招聘“AI代理经理[18]”,负责管理和优化内部的AI Agent团队;“AI训练师[19]”,负责持续“喂养”和校准AI的行为;“自动化工作流架构师[20]”,负责设计和搭建人机协同的业务流程。这些新岗位无一不在说明,未来属于那些懂得如何与AI共舞的人。
回到我们最初的问题:AI Agent到底是革命还是泡沫?
现在,答案已经清晰。AI Agent的未来是光明的,但通往未来的道路是曲折的。我们需要警惕那些过度宣传的泡沫,比如试图一步到位创造一个无所不能的通用AI;但我们更要抓住泡沫之下,那些正在坚实地创造价值的真正机遇。
这场变革,不仅仅是一次技术升级,更是一次深刻的范式转移。它是旧软件时代的“终局”,也是一个以智能自主为核心的新世界的“开端”。
对于企业决策者而言,这意味着需要重新审视自己的业务流程、组织能力和商业模式。正如Klarna的CEO在与红杉资本的对谈[21]中所展示的魄力,也如Air Canada因其聊天机器人提供错误信息而被判赔偿[22]所付出的代价,每一个决策都可能决定企业在未来十年的位置。理性的审视,务实的布局,从能创造确定性ROI的“苦力活”开始,才是拥抱这场变革的正确姿態。
对于我们每一个普通人而言,这意味着需要重新评估自己的技能组合和职业规划。与其担忧工作被取代,不如主动学习如何驾驭这个强大的新工具,将自己从重复性的劳动中解放出来,去从事那些更需要创造力、同理心和战略思维的工作。
那么,在你看来,在你的行业里,AI Agent最先可能在哪个“脏活累活”上取代人类?欢迎在评论区分享你的看法。
《AI代理将提升生产力并扩大软件市场规模》: https://www.goldmansachs.com/insights/articles/ai-agents-to-boost-productivity-and-size-of-software-market
[2]AI程序员Devin: https://www.voiceflow.com/blog/devin-ai
[3]相当于凭空多出了700名全职员工: https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/
[4]LangChain: https://galileo.ai/blog/langchain-vs-langgraph-vs-langsmith
[5]AutoGen: https://devblogs.microsoft.com/autogen/microsofts-agentic-frameworks-autogen-and-semantic-kernel/
[6]AI安全的报告: https://msrc.microsoft.com/blog/2025/07/how-microsoft-defends-against-indirect-prompt-injection-attacks/
[7]仅有约14.41%: https://arxiv.org/html/2307.13854v4
[8]当前的技术范式不可能抵达人类智能: https://techcrunch.com/2025/01/23/metas-yann-lecun-predicts-a-new-ai-architectures-paradigm-within-5-years-and-decade-of-robotics/
[9]2025不是代理之年,2025到2035是代理之十年。: https://x.com/karpathy/status/1882544526033924438?lang=en
[10]预计为公司在2024年带来4000万美元的利润改善: https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/
[11]Intercom Fin: https://www.anthropic.com/customers/intercom
[12]Vodafone Italy: https://the-mobile-network.com/2024/07/vodafone-to-boost-tobi-with-genai/
[13]暴涨7倍: https://www.morningstar.com/news/business-wire/20250828925944/6sense-launches-ai-email-agents-to-power-efficient-personalized-pipeline-creation
[14]节省了12倍的工程工时和20倍的成本: https://devin.ai/customers/nubank/
[15]任务完成速度提升约55%: https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/
[16]大规模研究: https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-in-the-enterprise-with-accenture/
[17]Outreach的AI教练: https://www.outreach.io/resources/blog/understanding-kaia-the-ai-assistantant
[18]AI代理经理: https://jobs.refreshmiami.com/companies/kaseya/jobs/54071320-ai-agents-manager
[19]AI训练师: https://boost.ai/blog/ai-trainer-a-job-of-the-future/
[20]自动化工作流架构师: https://careers.ey.com/ey/job/Coimbatore-Customer-AI-Automation-Architect-TN-641049/1242842801/
[21]红杉资本的对谈: https://www.youtube.com/watch?v=m3niSE-8ZvE
[22]被判赔偿: https://www.pinsentmasons.com/out-law/news/air-canada-chatbot-case-highlights-ai-liability-risks
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-13
中文显示成功率99% 被低估的文生图工具Qwen-Image,无废话,纯干货 实测提示词
2025-09-13
Java 版 DeepResearch 的实现和使用方式
2025-09-13
这可能是Human-in-the-Loop最具象化的演绎 | 长程推理Agent设计实践
2025-09-13
ai问答助手类产品策略与指标
2025-09-13
蚂蚁数科宣布:支持企业客户按大模型应用效果付费
2025-09-13
阿里Qoder IDE进行AI辅助编程的简单验证
2025-09-13
Docling将pdf转markdown以及与AI生态集成
2025-09-13
Claude Code 为何如此强大?Anthropic 万字长文揭秘 AI Agent 工具开发五大“心法”
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07