来自麦肯锡AI 智能体一线实战的六大经验

发布日期：2025-09-23 09:46:10 浏览次数： 2325

作者：ThinkInAI社区

微信搜一搜，关注“ThinkInAI社区”

AI智能体革命已经一年了，有一个教训非常明确：想要做好并不容易。

智能体企业转型承诺能带来前所未有的生产力提升。虽然一些公司在这方面取得了早期成功，但更多企业发现很难从投资中获得价值。有些情况下，它们甚至在走回头路——在智能体失效的地方重新雇佣人工。

这些挫折是任何新技术发展的必然过程，我们在其他创新中也见过类似的情况。为了总结早期的经验教训，我们深入研究了麦肯锡主导的50多个智能体AI项目，以及市场上的数十个其他案例。我们将分析结果总结为六大经验，帮助企业领导者成功从智能体AI中获取价值。

第一条：重点不是智能体，而是工作流

要通过智能体AI实现业务价值，必须改变工作流程。然而，很多组织过于关注智能体或智能体工具本身。这往往会产生看起来很厉害但实际上无法改善整体工作流程的智能体，最终价值令人失望。

那些专注于从根本上重新设计整个工作流程——也就是涉及人员、流程和技术的各个环节——的智能体AI项目更容易成功。理解智能体如何在每个环节发挥作用，这才是创造价值的关键。人员仍然是完成工作的核心，只是现在有了不同的智能体、工具和自动化系统来协助。

重新设计工作流程的重要起点是梳理流程并找出用户的核心痛点。这一步对于设计能够减少无用功、让智能体和人员高效协作实现业务目标的系统至关重要。这种协作可以通过学习循环和反馈机制实现，形成自我强化的系统。智能体使用得越频繁，就会变得越聪明、越贴合需求。

以一家正在升级合同审查流程的法律服务公司为例。该公司所在领域的法律推理在不断演进，新的判例法、司法管辖权的细微差别和政策解释层出不穷，很难将专业知识固化成代码。

考虑到这种自然变化，团队设计的智能体系统能够在工作流程中学习。比如，文档编辑器中的每个用户修改都会被记录和分类。这为工程师和数据科学家提供了丰富的反馈信息，用来训练智能体、调整提示逻辑、充实知识库。随着时间推移，智能体就能掌握新的专业知识。

专注于工作流程而非智能体本身，让团队能够在合适的节点部署合适的技术，这在改造复杂多步骤工作流程时尤为重要。比如保险公司通常有复杂的调查工作流程，涵盖理赔处理、承保等多个步骤，每个步骤需要不同类型的活动和认知任务。公司可以通过有针对性地组合规则引擎、分析AI、生成式AI和智能体来重新设计这类流程，所有组件都基于统一的编排框架（如开源的AutoGen、CrewAI和LangGraph）。在这种情况下，智能体充当编排者和集成者，调用工具并将其他系统的输出整合到上下文中。它们是统一整个工作流程的粘合剂，让流程能够以更少的人工干预实现闭环。

第二条：智能体不是万能药

AI智能体能做很多事，但这不意味着什么都应该用智能体。很多领导者没有仔细分析需要完成的工作，也没有考虑智能体是否真的是完成该工作的最佳选择。

为了避免投资浪费或增加不必要的复杂性，企业领导者应该像组建高效团队一样来考虑智能体的角色。关键问题是："需要完成什么工作？每个潜在的团队成员——或智能体——有什么特长，如何协作才能实现目标？"很多业务问题其实可以用更简单的自动化方法解决，比如规则引擎、预测分析或大语言模型提示，这些方案可能比智能体更可靠。

在急于上马智能体方案之前，企业领导者应该先评估任务需求。具体来说，就是要搞清楚：流程的标准化程度如何、需要处理多少变化、哪些工作最适合智能体来做。

从某种程度上说，这些问题比较直接。比如，低变化、高标准化的工作流程，如投资者准入或监管披露，往往管控严格且逻辑可预测。这种情况下，基于不确定性大语言模型的智能体可能不但没有价值，反而会增加复杂性和不确定性。

相反，高变化、低标准化的工作流程就很适合用智能体。比如某金融服务公司部署智能体来提取复杂的金融信息，减少了人工验证的工作量，简化了流程。这些任务需要信息汇总、验证检查和合规分析——正是智能体擅长的领域。

关键是不要陷入"用智能体"或"不用智能体"的二元思维。有些智能体擅长特定任务，有些能帮助人们更好地工作，很多情况下其他技术可能更合适。重点是找出哪个工具或智能体最适合具体任务，人员如何与它们最有效地协作，如何组合智能体和工作人员来实现最大产出。人员、智能体和工具的良好协作才是价值创造的秘诀。

第三条：杜绝"AI垃圾"，重视评估和用户信任

团队在部署AI智能体时最常遇到的问题是：系统在演示时看起来很棒，但真正使用的人却很沮丧。经常听到用户抱怨"AI垃圾"或输出质量差。用户很快就会对智能体失去信任，采用率很低。自动化带来的效率提升很容易被信任缺失或质量下降抵消掉。

这个反复出现的问题给我们一个宝贵教训：公司应该像培养员工一样大力投入智能体开发。正如一位业务负责人说的："让智能体上岗更像是招聘新员工，而不是部署软件。"智能体需要明确的职责描述、系统的培训以及持续的反馈，这样才能不断提升效果。

开发有效的智能体是个挑战性工作，需要结合具体专业知识来创建评估标准（即"evals"），并为特定任务制定足够详细的最佳实践。这种实践既是智能体的培训手册，也是性能测试标准，确保它按预期执行。

这些实践可能存在于标准操作规程中，或者是员工头脑中的隐性知识。在梳理这些实践时，重点要关注顶尖表现者和普通员工的差别。对销售代表来说，这可能包括如何引导对话、处理异议、匹配客户风格等。

关键是，专家必须持续参与测试智能体的表现，不能"一次部署，终身不管"。这种对评估的投入要求专家实际写出或标注期望的（以及不期望的）输出结果，对于复杂智能体可能需要成千上万个样本。通过这种方式，团队可以评估智能体的对错程度并进行必要调整。

一家全球银行在改造客户尽调和信贷风险分析流程时就采用了这种方法。每当智能体对合规准入指引的建议与人工判断不一致时，团队就会找出逻辑缺陷，改进决策标准，重新测试。

比如有一次，智能体的初始分析过于笼统。团队提供反馈后，开发部署了额外的智能体，确保分析深度能在合适的粒度上提供有用洞察。他们的做法之一是连续多次问智能体"为什么"。这种方法确保了智能体的良好表现，大大提高了人们接受其输出的可能性。

第四条：让每个步骤都可追踪可验证

当只有少数几个AI智能体时，检查它们的工作、发现错误相对容易。但随着公司部署成百上千个智能体，这项任务就变得很有挑战性了。雪上加霜的是，很多公司只跟踪最终结果。所以当出错时——扩展智能体必然会出错——很难准确定位问题所在。

智能体的性能应该在工作流程的每个步骤都得到验证。在工作流程中内置监控和评估机制，能让团队及早发现错误、改进逻辑，即使在智能体部署后也能持续改善性能。

比如在一个文档审查工作流程中，某法律服务公司的产品团队发现系统遇到新案例时准确率突然下降。但由于他们在构建智能体工作流程时就加入了可观测性工具来跟踪每个步骤，团队很快找到了问题：某些用户群体提交的数据质量较低，导致解读错误和后续建议偏差。

有了这个洞察，团队改进了数据收集流程，为上游相关方提供了文档格式指引，调整了系统的解析逻辑。智能体性能很快就恢复了。

第五条：最好的用例就是复用用例

在推进智能体AI的过程中，公司往往为每个确定的任务都创建专门的智能体。这可能造成严重的重复和浪费，因为同一个智能体通常可以完成多个共享相似操作（如摄取、提取、搜索、分析）的不同任务。

决定在构建可复用智能体方面投入多少（相对于执行单一特定任务的智能体）类似于经典的IT架构问题：公司需要快速构建，但不能锁定会限制未来能力的选择。如何平衡往往需要大量判断和分析。

识别重复性任务是个不错的起点。公司可以开发能在不同工作流程中轻松复用的智能体和智能体组件，让开发人员容易调用。这包括开发集中化的验证服务（如大语言模型可观测性或预审批提示）和资产（如应用模式、可复用代码、培训材料），让它们容易定位和使用。将这些能力整合到统一平台至关重要。根据我们的经验，这有助于几乎完全消除通常需要的30-50%的非必要工作。

第六条：人类依然不可或缺，但角色和人数会变

随着AI智能体不断普及，人类将扮演什么角色这个问题引发了很多焦虑——既担心工作安全，又对生产力提升抱有很高期望。这导致了对人类在当今许多工作中角色的截然不同的观点。

需要明确的是：智能体能完成很多工作，但即使智能体和人类所做的工作类型会随时间变化，人类仍将是劳动力的重要组成部分。人员需要监督模型准确性、确保合规、运用判断力、处理边缘情况等。如前所述，智能体并不总是最佳答案，因此需要人员与机器学习模型等其他工具配合工作。不过，特定工作流程中的人员数量确实可能发生变化，用智能体改造工作流程后通常会减少。企业领导者需要像管理任何变革项目一样管理这些转换，深思熟虑地分配训练和评估智能体所需的工作。

我们经验中的另一个重要教训是，公司应该在重新设计工作时深思熟虑，让人员和智能体能够良好协作。没有这种关注，即使最先进的智能体项目也可能出现静默故障、错误叠加和用户抵触。

以前面提到的那家想用智能体做法律分析的法律服务公司为例。在设计工作流程时，团队花时间确定在哪里、何时以及如何整合人工输入。比如，智能体能够高精度地整理核心诉求和金额，但考虑到这些诉求对整个案件的核心重要性，律师进行双重检查和批准是必要的。

类似地，智能体能够为案件推荐工作计划方案，但考虑到决策的重要性，人员不仅要审查还要调整建议。智能体还被设定为突出显示边缘情况和异常，帮助律师形成更全面的观点。在流程最后仍然需要有人在文件上签字，用个人的执照和资质为法律决定承担责任。

这种人机协作设计的重要组成部分是开发简洁的可视化用户界面，让人们能够轻松与智能体互动。比如一家财产意外险公司开发了交互式可视元素（如边界框、高亮、自动滚动）来帮助审查员快速验证AI生成的摘要。当用户点击某个洞察时，应用会直接滚动到正确页面并高亮相关文本。这种对用户体验的关注节约了时间，减少了疑虑，建立了对系统的信心，用户接受度接近95%。

AI智能体领域发展迅速，我们肯定还会学到更多经验。但如果公司不以学习的心态（并付诸实践）来推进智能体项目，很可能会重复错误，拖慢进展。