微信扫码
添加专属顾问
我要投稿
麦肯锡最新报告揭示:企业智能体AI落地成败关键,在于重构工作流而非技术本身。 核心内容: 1. 智能体AI转型的常见误区与价值实现路径 2. 工作流重构的六大核心经验与实施框架 3. 法律行业智能体落地的实战案例解析
Agentic AI革命已迈入一周年,有一个教训愈发清晰:要想做好智能体AI部署,必须付出艰辛努力。
企业的智能体AI转型有望带来无可比拟的生产力提升。尽管部分企业已通过相关实践收获初步成效,但更多企业仍难以从其投资中看到价值。在某些情况下,这些企业甚至选择缩减智能体AI的应用规模——在智能体失效的领域重新招聘人力。
挫折是任何新技术发展过程中的自然阶段,此前其他创新技术的发展也呈现过类似规律。为总结早期经验,我们近期深入研究了麦肯锡主导的50多个智能体AI开发项目,以及市场上数十个其他相关项目,并将分析结果提炼为六条核心经验,助力企业领导者通过智能体AI成功创造价值。
通过智能体AI实现业务价值,核心在于改变工作流。然而,许多企业往往过度关注智能体或智能体工具本身。这必然导致开发出的智能体看似功能强大,却无法真正改善整体工作流,最终创造的价值不尽如人意。
聚焦于从根本上重新设计整个工作流(即涉及人员、流程和技术的各个环节)的智能体AI项目,更有可能取得积极成果。理解智能体如何为工作流的每个环节提供支持,才是实现价值的关键路径。人员仍将是完成工作的核心,但如今会有各类智能体、工具和自动化技术为其提供支持。
重新设计工作流的重要起点,是梳理现有流程并明确用户的核心痛点。这一步对于设计智能体系统至关重要——合理的智能体系统能减少不必要的工作环节,让智能体与人员高效协作,更精准地达成业务目标。这种协作可通过学习循环和反馈机制实现,进而构建一个自我强化的系统:智能体的使用频率越高,其智能化程度和与业务的契合度就越高。
我的解读:所以,梳理工作流还是咨询顾问的强项,麦肯锡未来的项目会是更多帮助企业梳理工作流,然后再落地智能体。这已经说的很明白了。
以某替代性法律服务提供商为例,该公司曾致力于实现合同审查工作流的现代化。由于其业务领域的法律推理需不断适应新判例法、司法管辖区差异及政策解读的变化,相关专业知识难以固化。
为应对这种天然的差异性,该公司团队设计的智能体系统可在工作流中持续学习。例如,文档编辑器中用户的每一次修改都会被记录并分类,为工程师和数据科学家提供丰富的反馈数据。他们可利用这些数据训练智能体、调整提示逻辑(Prompt Logic)并完善知识库。长此以往,智能体便能逐步固化新的专业知识。
我的观察:这个就是传统大模型里的RL强化学习,笔者之前做动态定价咨询也是这么去训练模型的。只不过,被麦肯锡说起来很重要,其实对于任何一个上线Agent的项目,这是必不可少的一环。
将重心放在工作流而非智能体本身,能让团队在恰当的环节部署合适的技术——这在重构复杂、多步骤的工作流时尤为重要。
来源:麦肯锡
例如,保险公司通常拥有涵盖多个环节的大型调查类工作流(如理赔处理和承保),每个环节都需完成不同类型的任务和认知工作。企业可通过精心部署“规则驱动系统、分析型AI、生成式AI与智能体”的针对性组合,并重构此类工作流,而所有这些技术都需依托统一的编排框架(如AutoGen、CrewAI、LangGraph等开源框架)。在这类场景中,智能体扮演着“编排者”与“整合者”的角色:它们可调用工具,并将其他系统的输出结果整合到自身的工作场景中,成为连接整个工作流的“粘合剂”,从而在减少人工干预的前提下,实现真正的工作闭环。
我的补充:这个内容之前Anthropic已经阐述的很清楚的,可以参考Anthropic官网上关于如何搭建智能体的问题,也可以参考笔者文章,后台公众号发问就可以。
AI智能体的能力固然强大,但并非所有场景都适用。许多领导者往往未能深入分析待完成的工作内容,也未思考“智能体是否是执行该工作的最佳选择”,便盲目部署智能体。
为避免投资浪费或引入不必要的复杂性,企业领导者在看待智能体的作用时,可类比评估高效团队成员的思路:核心问题应是“需完成的工作是什么?每位潜在团队成员(或智能体)具备哪些相对优势?如何通过协作实现目标?”。
很多业务问题其实可通过更简单的自动化方案解决,例如规则驱动自动化、预测分析或大型语言模型(LLM)提示词调用——这些方案往往比“开箱即用”的智能体更可靠。
在急于采用智能体解决方案前,企业领导者应先充分评估任务需求。具体而言,需明确三个关键问题:
从某种层面来看,这些问题的答案并不复杂。例如,投资者入职、监管披露等“低差异性、高标准化”的工作流,通常具有严格的管理规范且遵循可预测的逻辑。在这类场景中,基于非确定性LLM开发的智能体可能会增加复杂性与不确定性,而非创造价值。
与之相反,“高差异性、低标准化”的工作流则能从智能体中显著获益。例如,某金融服务企业部署智能体提取复杂的财务信息,不仅减少了人工验证的工作量,还简化了工作流。这类任务涉及信息整合、验证检查与合规分析——这些都是智能体的优势领域。
团队部署AI智能体时,最常见的陷阱之一是:智能体系统在演示中表现亮眼,却让实际负责工作的用户倍感困扰。用户抱怨“AI糟粕”或“输出质量低下”的情况屡见不鲜。一旦用户对智能体失去信任,其使用率便会大幅下降,而自动化带来的效率提升,也很容易被信任缺失或质量下滑所抵消。
从这一反复出现的问题中,我们得到一个深刻教训:企业应像投入员工培养一样,大力投资智能体的开发。正如一位企业领导者所言:“让智能体‘入职’更像是招聘新员工,而非部署软件。”智能体需要明确的“岗位职责说明”,需要经过“入职培训”,并持续接收反馈,才能不断提升效能。
开发高效的智能体并非易事,它需要整合专业人员的知识来制定评估标准(即“Evals”),并针对特定任务,将最佳实践细化为可落地的规范。这些规范既是智能体的“培训手册”,也是其“绩效测试标准”,可确保智能体的表现符合预期。
我的补充:大家可以去后台与智能体互动,查询红杉之前提出的xbench的概念还是很有意思的。这里再对想要落地智能体的企业提个醒,上线是一码事,后期的评估、测试、维护、升级是更重要的事情。千万不要忽略。
这些最佳实践可能存在于标准操作流程中,也可能是员工头脑中的隐性知识。在固化这些实践时,关键在于聚焦“顶尖执行者与普通执行者的核心差异”。以销售代表为例,这种差异可能体现在“如何推进对话、处理客户异议、匹配客户沟通风格”等方面。
至关重要的是,专业人员需持续参与智能体的性能测试——在智能体领域,绝不存在“一上线就万事大吉”的情况。这种对评估的投入要求专业人员,为特定输入明确标注“期望输出(或不期望输出)”,对于较复杂的智能体,此类标注甚至可能多达数千条。通过这种方式,团队可评估智能体的对错比例,并进行必要的修正。
某全球性银行在改造“客户身份识别”与“信贷风险分析”流程时,便采用了这种思路。每当智能体针对“准入准则合规性”提出的建议与人工判断存在差异时,团队会立即找出逻辑漏洞、完善决策标准,并重新开展测试。
例如,在某一案例中,智能体最初的分析过于笼统。团队针对这一问题提供反馈后,开发并部署了额外的智能体,确保分析的深度足以提供具有实用价值且颗粒度适宜的洞见。他们采取的方法之一是,连续向智能体追问“为什么”,通过这种方式确保智能体的表现达标,从而大幅提高了人工对其输出结果的接受度。
当仅使用少数几个AI智能体时,审查其工作成果、发现错误相对简单。但随着企业部署的智能体数量达到数百甚至数千个,这项工作会变得极具挑战性。更棘手的是,许多企业仅追踪最终结果——因此,当错误出现时(企业扩大智能体应用规模后,错误必然会发生),很难精准定位问题根源。
智能体的性能需在工作流的每个环节进行验证。在工作流中嵌入监控与评估机制,能让团队及早发现错误、优化逻辑,并在智能体部署后持续提升其性能。
例如,在某文档审查工作流中,某替代性法律服务提供商的产品团队发现,当系统处理一组新案例时,准确率突然下降。但由于他们在智能体工作流中集成了可观测性工具,能够追踪流程的每一步,因此迅速定位了问题:某类用户提交的数据质量较低,导致系统解读错误,进而生成了质量不佳的下游建议。
明确问题后,团队改进了数据收集流程,为上游相关方提供了文档格式指南,并调整了系统的解析逻辑,智能体的性能很快便恢复正常。
在急于推进智能体AI应用的过程中,企业往往会为每个已识别的任务开发专属智能体。但实际上,许多任务共享大量相同操作(如数据摄入、提取、搜索、分析),完全可由同一个智能体完成——这种“一事一智能体”的做法会导致严重的冗余与浪费。
决定“在可复用智能体(而非单一任务智能体)上投入多少资源”,类似于IT架构领域的经典难题:企业需快速推进开发,同时避免因决策固化而限制未来的能力拓展。如何平衡这两方面,往往需要大量的判断与分析。
我的看法:我和Flowith的CTO聊的结论是他告诉我,未来Agent应该能自动规划任务,从而达到比人类更加高效的目的。反过来,我们可以谈Flowith CTO的结论是愿景,但是提醒大家的是,未来智能体一定会更加通用的。所以,现在市场有一些battle在于“专业”和“通用"智能体的battle。我的感觉是,谁能抽取企业内部的隐性知识,谁就有更大的获胜概率。
识别重复性任务是良好的起点。企业可开发能在不同工作流中轻松复用的智能体及智能体组件,并简化开发者的访问流程。这包括构建一套集中化的“经验证服务”(如LLM可观测性工具、预批准提示词库)与“资产库”(如应用模式、可复用代码、培训材料),确保这些资源易于查找和使用。将这些能力整合到统一平台至关重要——根据我们的经验,这一举措可减少30%至50%的非必要工作。
随着AI智能体的应用日益广泛,“人类将扮演何种角色”这一问题引发了广泛担忧:一方面是对工作安全感的焦虑,另一方面是对生产力提升的过高期待。这导致人们对当前许多工作中“人类角色”的看法存在巨大分歧。
需明确的是:尽管智能体的能力会不断增强,但即便其与人类的工作内容随时间推移发生变化,人类仍将是劳动力体系中不可或缺的一部分。例如,人类需监督模型准确性、确保合规性、运用判断力处理边缘案例。此外,正如前文所述,智能体并非万能解,因此仍需人类结合机器学习模型等其他工具开展工作。不过,在利用智能体完成工作流转型后,特定工作流中的人力数量可能会发生变化,且通常会减少。对于企业领导者而言,他们必须像管理其他变革项目一样,妥善处理这些转型过程,并精心分配“智能体培训与评估”所需的工作资源。
我们从实践中总结出的另一个重要经验是:企业应审慎设计工作模式,确保人类与智能体能够高效协作。若忽视这一点,即便最先进的智能体项目,也可能面临“隐性失效、错误叠加、用户抵触”的风险。
仍以之前提到的“希望利用智能体优化法律分析工作流”的替代性法律服务提供商为例。在设计工作流时,该团队花时间明确了“何时、何地、如何整合人类输入”。例如,智能体能够以高准确率整理核心诉求与金额数据,但由于这些信息对整个案件至关重要,仍需律师进行双重检查与确认。
我的思考:个人感觉麦肯锡之前提到的思路是对的,但是这里又出现一个悖论就是如果未来的智能体越来越多,那岂不是要追溯的步骤、管理的“员工”也越来越多,到最后,还是和写代码一样,改比写花的时间更多?
同样,智能体可针对案件提出工作计划建议,但鉴于该决策的重要性,人类不仅需要审查建议,还需对其进行调整。此外,智能体还被设定为“突出显示边缘案例与异常情况”,帮助律师形成更全面的判断。在流程末尾,仍需由人类签署文件——凭借其职业资质为法律决策提供背书。
在“人机协作”设计中,一个重要环节是开发简洁的可视化用户界面(UI),降低人类与智能体的交互难度。例如,某财产与意外保险公司开发了交互式视觉元素(如边界框、高亮标记、自动滚动功能),帮助审核人员快速验证AI生成的摘要。当审核人员点击某一洞见时,系统会直接滚动到对应的页面,并高亮显示相关文本。这种对用户体验的重视,不仅节省了时间、减少了反复质疑,还增强了用户对系统的信心,使其用户接受度接近95%。
AI智能体领域的发展日新月异,未来我们必将总结出更多经验。但如果企业在推进智能体项目时,不注重在实践中学习,就很可能重复过去的错误,延缓发展进程。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-24
重磅发布:GPT-5 Codex 正式登陆 Azure AI Foundry
2025-09-24
阿里吴泳铭全文演讲:AGI只是起点,AI最终会“超越人类”
2025-09-24
阿里一口气发了N款新模型,让我们向源神致敬。
2025-09-24
王慧文说“大模型是预制菜”,我用微波炉热了热,然后悟了。
2025-09-24
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
2025-09-23
从完全听不懂到对答如流:ChatGPT的语言进化史,揭秘AI如何偷师人类说话
2025-09-23
我觉得“Agent”这个词,现在终于有了一个大家都认可的定义了
2025-09-23
李践:如何构建AI型组织
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-08-20
2025-09-14
2025-09-23
2025-09-22
2025-09-20
2025-09-19
2025-09-19
2025-09-18
2025-09-18
2025-09-17