我要投稿

企业级 AI Agent规模化落地的避坑指南，就藏在这四大趋势里

发布日期：2025-12-02 15:19:24 浏览次数： 2505

作者：InfoQ

微信搜一搜，关注“InfoQ”

SaaS 用不好常卡在“最后一公里”。但 Al Agent 用不好，问题会出在“每一公里”。

2025 被普遍视为企业级 Al Agent 的落地拐点：企业从“试试看”走向“用起来”，技术叙事让位于业务结果。美国著名通信 API 服务机构 Plivo 的调研显示，超过六成企业将 Al Agent 列为未来 12 个月的关键布局，“价值导向型”采购兴起，RaaS（结果计费） 正压过传统 SaaS（功能交付）。读懂 MCP / GraphRAG / AgentDevOps / RaaS 四大趋势，基本就抓住了“能干活的 Al Agent”的工程化答案。

1 企业级 Al Agent 究竟缺什么？四大趋势给出可复用的工程化解法

趋势一：MCP 让 Al Agent 可扩展

2024 年年末，Claude 母公司 Anthropic 首次在《Introducing the Model Context Protocol》一文中提出 MCP（Model Context Protocol，模型上下文协议）。这是一个能够实现大语言模型与外部数据源和工具集成，并建立安全双向连接的开源协议。为了更加具象化地向公众解释这个新词汇，Anthropic 在 MCP 文档中称“可以把 MCP 想象成 AI 应用的 USB-C 接口”，开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型，极大地降低了企业在 Al Agent 项目中的集成与运维成本。

Claude 3.5 Sonnet 第一个“吃螃蟹”，支持快速搭建 MCP 服务器；早期实践者 Block 和 Apollo 也在第一时间将 MCP 集成进自身系统。随后的一年时间里，MCP 迅速成为 AI 原生应用的重要基础设施，并得到了多家海内外科技巨头们的关注：微软、谷歌、亚马逊云科技纷纷将 MCP 集成到自家的 AI 服务中，OpenAI 在 Al Agent SDK 中支持 MCP，BAT 也密集布局 MCP 协议。社区的广泛支持则代表了 MCP 在开发者生态中已经成为事实标准：GitHub、Hugging Face 上涌现了数千个由社区贡献的 MCP Server，覆盖数据库、云服务以及各类 SaaS 应用。11 月 25 日官方发布的 MCP 周年博文中更是指出，MCP 注册表中收录的服务器数量已接近 2000 个，生态扩张速度可见一斑。

但生态上的繁荣掩盖不了 MCP 在落地层面所面临的现实挑战，尤其对于中国企业而言，标准碎片化、安全治理以及运维管理层面上的难题愈加突出。标准层面，国内不少企业都基于自身业务生态推出了差异化 MCP 方案，实际运行中协议不匹配问题频发，从而导致 Al Agent 协同能力受限。安全治理层面，MCP Server 认证生态混乱，权限边界模糊，一旦被攻破，攻击者可跨服务访问敏感数据。此外，当前 MCP 协议在身份验证、操作审计等关键安全模块上尚不完善，难以满足强监管行业更高的合规要求。运维管理层面，MCP Server 往往需要单独部署，这也带来了资源隔离与弹性伸缩的现实难题。

企业级 Al Agent 要想跨越从“可用”到“好用”的鸿沟，就必须需要一套更体系化的 MCP 方法论，在开源协议之上，重建统一、可治理、轻运维的连接层，而非简单的单次集成。在全球范围内，已经有多家企业验证这一方向。最早采用 MCP 的公司之一 Block，将 MCP 用作多工具协调层，使得内部 Al Agent 可统一访问支付、风控和客服系统，降低接口维护成本。一些开发者工具公司，如 Replit、Zed，也在生产环境中增加对 MCP 的支持，通过统一连接层让 AI Agent 能够跨代码仓库、调试工具、构建系统进行组合式操作，从而提升了任务的成功率与可观测性。在国内，类似的工程路径也在逐渐成型。以百融云创为例，其推出的结果云 Results Cloud 与企业级智能体平台百融百工以 MCP 作为连接底座，对多模型、多工具进行统一接入与治理，降低企业运维与扩展成本。这些案例都表明，基于 MCP 构建统一治理层，已经成为企业级 Al Agent 发展的必然趋势。

趋势二：GraphRAG 让回答不再乱

GraphRAG 是由微软提出的结合了知识图谱和 RAG 技术的新方法。传统 RAG 更像是检索增强，依赖向量召回与文本匹配，擅长从外部知识库中检索相关信息，却难以保证跨文档、跨版本的口径一致性。GraphRAG 在 RAG 的基础上进一步引入了知识图谱，将信息以节点和边的形式存储，构建实体关系网络，使得大模型不仅能检索文本片段，还能理解深层逻辑关系。进而，确保 Al Agent 的回答内容更加全面且一致。在适用场景上，GraphRAG 适用于所有“长文、多跳、强逻辑、需可解释”的复杂业务文档场景，能把回答准确率提升 20–50 个百分点，并将 token 成本降低 10–100 倍，尤其适用于金融、保险、医疗、法律等高价值领域。

图片来源：Medium 博客

GraphRAG 同 MCP 一样选择了开源，这也加速了工程落地的脚步，社区基于此衍生出了多种更易用的模板。在 GitHub、Hugging Face 社区中，有多个项目基于微软的官方实现，创建更轻量、更易于使用和定制的版本。此外，包括 LangChain 在内的多个主流开源框架，也已支持 GraphRAG 流程，将图结构检索能力与 RAG 模型结合，以构建更强大的知识系统。

但在落地层面，GraphRAG 面临的现实挑战同样复杂。其一，知识图谱的构建复杂度较高，企业知识分散在 PDF、PPT、表格与图片等多个源头，提取和解析难度较高；其二，知识版本治理缺失，由于缺乏统一的版本控制机制，Al Agent 在回答时容易引用过期规则；其三，全局召回的工程复杂度高，GraphRAG 在 RAG 的向量召回基础上引入了图谱召回，使得 Al Agent能够更深层地理解上下文，但全局召回需要企业对全量知识进行解析，此外，一些简单的问题可能也会触发复杂的全局检索，引入无关信息，增加成本。

因此，一套更加工程化的 GraphRAG 方法论正在中国企业中形成共识，其核心目标不是构建“庞大的知识库”，而是构建“可治理的知识资产链路”。在国内，不少技术团队都在沿着这一大方向推进工程化实践，只是在具体路径和侧重点上有所不同。以百融云创的实践为例，其工程体系主要围绕三大核心能力展开：第一，高精度文档解析，只有在解析阶段达到足够高的准确率，才能更可靠地支撑后续的图谱构建、全局检索；第二，版本治理，以金融行业为例，规章制度每年迭代，各版本之间的关系复杂，必须依靠有效的知识库版本管理机制，对其进行可控管理；第三，意图澄清能力，在实际对话中，用户的意图往往比较模糊，需要基于结构化知识树做可控的意图澄清，才能精准地获取用户实际问题，最终输出可靠的答案。

在这一体系中，关键的技术难点包括领域图谱 RAG 的构建以及 RAG-U 型检索（U-Retrieval）。以百融云创的 FinGraphRAG 为例，在构建金融图谱 RAG 时，需要经历文档分块（Doc Chunking）、实体抽取（Entities Extraction)、三重链接（Triple Linking)、关系构建（Relationship Linking)、图谱标签化（Tag the Graphs)、通过 U-Retrieval 响应查询（Response via U-Retrieval）六大链路，整个链路的目标都是将非结构化知识转化为结构化、可推理的图谱体系，从而解决金融领域中长文本（年报、研报、会议纪要）、专业术语歧义和复杂因果推理的问题。

图片来源：https://arxiv.org/pdf/2408.04187

为了兼顾精确性与全局视野，金融图谱 RAG-U 型检索还需实现自顶向下的精确检索与自底向上的响应优化。在自顶向下的精确检索阶段，需要先为查询打标签，并沿 tag 索引树自顶向下路由，在目标图谱中选取关键实体与邻居，最终根据图谱生成初始回答；在自底向上的响应优化阶段，需要从刚才选中的叶子节点往上走，依次访问其父级标签摘要，每向上一层，就向 L_R 提供 QUESTION: {Q}、LAST RESPONSE: {A_{i}}、SUMMARY: {T^{(i-1)}}，并要求其“根据更上层的摘要信息，修正 / 补充上一轮回答”，最终在顶层得到一个既保留底层图谱细节，又融合更宽广全局视角的回答。进一步而言，U 型检索像是在金融知识图谱中先钻入某个最契合问题的“细颗粒业务簇”（例如“客户 B 在过去一年内的境外大额转账模式”），基于局部图输出精准判断，再一路向上，把“客户整体资产负债情况”“他所在行业的宏观景气度”“同地区同客群的历史违约率”等高层上下文逐步加回到回答中。

趋势三：AgentDevOps 让 Al Agent 真的可控

随着企业将更多流程交给 Al Agent 执行，业界开始形成一个清晰共识：Al Agent 的开发与运维无法继续沿用传统 DevOps 模式，需要一套针对 “推理型系统” 的工程体系，即 AgentDevOps。不同于传统 DevOps 聚焦系统可用性与部署效率，AgentDevOps 的核心目标是 确保 Al Agent 的行为质量、任务完成度与推理链路的稳定性，让 Al Agent 能够持续输出可靠结果。

从行业角度来看，AgentDevOps 与传统 DevOps 的根本差别体现在四个方面：

第一，责任对象不同——从系统可用，转向对业务结果负责。Al Agent 的价值不体现为“服务正常”，而体现为“任务是否完成”“判断是否正确”。
第二，观测维度不同——从指标监控，转向推理链路可观测。 行业普遍认为 Al Agent必须具备 Reasoning trace（推理轨迹），包括意图 →检索 →推理 →工具调用→输出的全链路可追溯性。
第三，调试方式不同——从代码调试，转向行为调试。 传统日志无法解释“为什么答错”，AgentDevOps 需要能复现推理路径、定位错误来源。
第四，优化机制不同——从人工调参，转向基于数据的持续自我优化。Al Agent需要按照真实反馈不断提升判断质量，而不是静态上线。

图片来源：https://arxiv.org/pdf/2508.02121v1

目前，业界对于 AgentDevOps 的系统性研究仍处于探索阶段，但已有不少企业开始将其从工程理念推向生产级实践。今年 3 月，LangSmith 为基于 LangChain 或 LangGraph 构建的应用程序提供完整的端到端 OpenTelemetry 支持，开发者可以记录 Al Agent 的推理链路、工具调用、RAG 检索 / 检索调用历史等。微软 AutoGen 也通过与 OpenTelemetry 的集成，让 Al Agent 的多轮对话、节点分支和工具执行过程实现结构化记录，并可将这些 trace 统一输出到 LangSmith 或第三方可观测平台。

在企业级 Al Agent 体系中，要想做到工程化的治理与可观测，需要具备回放、A / B 测试、审计、以及基于 SLO（服务质量目标）/ SLA（服务质量协议）的质量与结果保障这四种关键能力。但相比海外的体系化探索，中国企业在构建 AgentDevOps 能力体系时面临的挑战更加复杂。在回放能力方面，很多 Al Agent 可能运行在云端、本地部署等多套系统中，运行轨迹难以完整捕获；在 A / B 测试方面，评估体系仍不不成熟，难以科学地对比不同 Al Agent 策略的优劣；在审计方面，Al Agent 的每一个决策都可能需要接受审查，但现有工具链往往无法完整记录 Al Agent 对知识版本、策略选择和工具调用的依据；在 SLO / SLA 方面，传统的 SLA 主要承诺系统的可用性与响应延迟，但企业级 Al Agent 在业务场景中还缺乏明确的指标口径。

厘清这些挑战，还需要一套务实的方法论。当前，中国企业的 AgentDevOps 方法论正在逐步成型。比如，百融云创就在行业共识的基础上，对 AgentDevOps 能力体系做了进一步增强，并从四个方面推进 AgentDevOps 落地：

（1）全流程工程能力：覆盖开发 - 调试 - 部署 - 监控 - 优化的全链路，并形成标准化、可追踪的工程体系；

（2）场景化评估器：在业务维度实时跟踪“硅基员工”的实际表现，让企业能看到每一个节点、每一个业务指标的变化，从而真正做到价值可视化；

（3）半监督自适应优化：在开发阶段自动搜索最优参数与 Prompt 组合，使 Al Agent 快速达到可上线标准，减少冷启动成本；

（4）强化学习增强的在线优化：在运营阶段基于回流数据持续迭代策略，让 Al Agent 随使用不断更稳、更佳。

在落地实践中，这些系统性增强带来显著且可量化的效果，比如，人工调参与维护的成本显著下降，Al Agent 的上线周期大幅缩短，并且超过 70% 的典型应用场景实现了自动优化，稳定性提升明显，Al Agent的产出质量持续增强。

趋势四：RaaS 让 AI Agent 能用 KPI 说话

正如前文所言，RaaS 作为一种新兴的服务交付模式，正在全球范围内对 SaaS 发起挑战，甚至市面上出现了不少“RaaS 是 SaaS 的未来”“90% 的 SaaS 企业将面临淘汰”等声音。今年 5 月，全球顶尖 AI 创始人齐聚旧金山，在红杉资本第三届 AI 峰会（AI Ascent 2025）上达成重要共识：人工智能正迎来一场根本性变革，其核心不再是出售技术工具，而是直接交付可衡量的业务成果和收益。 简单来说，RaaS 的核心理念就是让客户为可衡量的业务成果付费，而不仅仅是为软件访问权限或流程付费。

在海外，很多创新型公司都已经成功应用了 RaaS 模式。比如 Simple.ai 根据客户满意度评分的提高或问题解决时间的缩短向客户收费，将定价与结果直接挂钩；Freightify 根据运输成本的节省或货运管理时间的减少来收费；客服 SaaS Kustomer 彻底取消订阅制，改为按问题解决量收费；Salesforce 推出 Agentforce，对话式 AI 按每次有效对话 2 美金计费……

但企业在推进 RaaS 模式之前，还需要回答一个最关键的问题：如何对齐结果计价与财务口径？ 换句话说，怎样的结果算是符合客户预期？按结果验收又该怎么验收？最突出的矛盾是，不同岗位对于不同业务场景中的结果，评价标准本就存在明显差异，比如，同样是客服岗位，售前咨询场景关注响应速度、转化率，售后服务场景关注问题解决时效、满意度，跨部门协作场景关注信息流转的完整性与合规性。这种多维度、多口径的评价标准，使得企业与客户难以就清晰、客观、可验证的“结果”定义达成一致。此外，企业在从传统的按账号和席位收费的模式，转向按结果计费时，也会面临体系衔接等挑战，如何平稳过渡又是一大难题。

根据国内第一批践行 RaaS 模式的企业实践路径，一个可行的方向是 将抽象的结果转化为可度量、可兑现的 SLA 项。比如，客服 Al Agent 不是按席位或调用次数报价，而是围绕接通率、有效对话轮次、邀约 / 转化量、误报率等 SLA 项与客户对齐价值，每一项都有明确的数字和验收标准，更具象化地体现了 Al Agent 的业务价值。百融云创推出的硅基员工也是基于这一模式，将 AI Agent 原生地嵌入企业级工作流和 SLA，让硅基员工像人一样接受 SLA / KPI 考核，与业务成果直接绑定，创造的价值再进行收益分享。

当 MCP、GraphRAG、AgentDevOps、RaaS 这四大趋势逐渐清晰，并在产业侧进入工程化成熟期时，企业级 Al Agent 的落地路径也就有了更准确的答案。如果把这些能力真正放进企业的真实业务场景，会发生什么？最直观的变化就是，Al Agent 不再是辅助工具，而是能够承担具体岗位职责，并且可以像人类员工一样接受 KPI 考核。

2 什么样的 AI Agent “能干活”？企业的一线标准都在这里

在 金融、汽车、公共服务、招聘 / HR 等高触达链路，Al Agent 落地已从试点走向规模化，逐步形成了一批 可检验、可复用 的企业级样本。

其中，最典型的一类是 面向大规模触达的营销 / 运营 场景。以金融为例，在触达庞大规模的客户群体时，传统方式通常依赖人工外呼，AI 技术改造后，虽然效率提升了，但在意图识别、交互体验上还一言难尽。如今，借助大模型与多智能体，金融行业在进行存款产品的智能营销时，能通过深度解析客户通话，精准识别意图，自动生成对话文本与服务小结，同时依据客户关注的收益率与流动性偏好，智能匹配存款产品并形成个性化营销策略。

这对底层大模型的能力要求就是，不能再是传统的“一问一答”式，必须变被动为主动，能主动推进、主动谈判、主动沟通。百融云创研发的 BR-LLM-Speech 就是结合了大语言模型、强化学习技术和多模态端到端主动大模型，能结合实际业务目标动态制定策略，主动引导对话，并且在交互层面，响应速度在 200ms 以内，多轮对话 ≥ 100 轮。

不要小看 200ms 这个数字，这背后实际上是对整条实时语音链路的极高要求——因为真正的实时语音 Al Agent，并不是“一个 RTC 就能搞定”的事情。RTC 只是实现实时性的基础，真正决定用户能否获得“像真人一样顺畅沟通”的体验，是整条端到端语音智能链路的协同优化能力。

要想实现这项能力，需要突破四大瓶颈：

第一，ASR → LLM → TTS 的多段式模型链路。在真实业务场景中，一条语音必须经过“语音接入 → ASR 解码 → LLM 多轮推理 → 工具调用 → 业务系统访问 → 文本生成 → TTS 合成 → RTC 回传”，这条链路远比视频会议复杂得多。ASR 可能需要累计帧，LLM 可能触发多次子调用，TTS 可能需要韵律调制，这些都会形成 200–800ms 的模型计算延迟。因此即便 RTC 只有 30ms，端到端仍可能超过 2 秒。
第二，端到端模型并行带来的调度与资源管理。实时语音链路不是单模型推理，而是要结合多模态输入的语义完整度、说话人识别、端到端的语音理解和生成。GPU / KV-cache 管理、音频帧批处理、模型复用、上下游同步，是工程上挑战极大的部分。
第三，实时语音场景对稳定性提出极端要求。一个轻微的 jitter、一次不完整帧、一次延迟积累，就可能造成体验“顿一下”。这就要求从 RTC 到模型 pipeline 必须做到精细帧级调度、音频包级容错、模型级 backpressure、实时工具调用（超时与重试），以及推理链路的动态裁剪。这些已经超出传统 RTC 能力的范畴，需要完整语音 pipeline 的系统性优化。
第四，多模态化带来的算力压力。当场景加入更多模态之后，模型中各 block 处理耗时不同，依靠百融自研的推理框架（Vortex），实现算力模块的精细化调度，才能让多模型真正“汇流”。

总的来说就是，RTC 是实时语音的基石，但决定 用户是否“感觉实时” 的关键，是企业是否具备 完整的模型 → 工具链路 → RTC 的端到端语音智能 pipeline 优化能力。百融百工的差异化优势也来自于此。通过自研实时语音模型、语义 VAD、零样本 TTS、RTC 深度整合、Vortex 多模型融合推理，再加上 AgentDevOps 的自动评估与调优，能在真实业务中实现 200ms 的自然对话体验。

另一类典型场景来自招聘 / HR。招聘链路同样面临候选人规模大、沟通频次高、人工成本高、反馈窗口短等现实压力，因此，企业期望通过引入企业级 Al Agent，以更稳定、可持续的智能能力重构流程：一是 AI 独立的初筛与邀约能力，在高峰期对大量候选人完成意向澄清、时间协调与到访安排，承担重复性沟通；二是 AI 辅助招聘官能力，针对关键岗位做前置初筛与异议处理，输出候选人画像与风险点，提升邀约到访率，降低“无效沟通”，实现降本增效。

在百融云创与某大型企业的人才招聘项目中，面向蓝白领混合岗位，Al Agent 相比早期方案邀约到访率更高、平均处理时长显著缩短，且 无效沟通占比下降；由于 AI 在前置环节进行了高效干预，线下面评资源被更有效地分配至高优先级候选人，从而降低整体人力投入。招聘链路的另一关键在于 知识治理：Al Agent 在回答岗位 JD、薪酬带宽、福利政策、背景调查口径等问题时，必须 答得上且口径一致，才能真正承担招聘岗位的职责。在知识治理层面，Al Agent 文档解析准确率可达 95% 以上，为招聘链路的可控性提供保障。

虽然不同岗位对 Al Agent 的能力要求各有侧重，但无论场景如何变化，准确性和稳定性都是 Al Agent 能干好活的前提。在提升 Al Agent稳定性，保障其能在线自主持续学习方面，百融云创提出了 Training Free 技术，不依赖模型微调，而是通过客户反馈的 Bad Case 提炼经验，动态优化提示词。这些经验会与提示词动态结合，持续修正 Al Agent 行为，让 Al Agent 具备自适应优化能力。

这些案例表明，企业级 Al Agent 正在越来越深入地嵌入业务链路，承担着具体的岗位职责。而当企业级 Al Agent 从点状创新走向组织级重构，将为业界带来一套新的规则也未可知。

3 企业级 Al Agent 上岗前，先通过这份自检清单

在迎接这一宏大叙事前，企业还需要一份实用的 Al Agent 落地实践自检清单。对应着前文提到的四大重要趋势，这份 Checklist 已然清晰。

第一，看连接协议层，Al Agent 是否能丝滑融入现有业务？ 对内，Al Agent 能与企业核心系统安全、稳定地对接，对外，Al Agent能与外部生态进行交互。其中，任何一个不明确的连接协议，都可能导致任务执行中断、数据丢失或响应延迟，直接影响 Al Agent 的业务产出和用户体验。

第二，看知识口径层，Al Agent 是否答得上且口径一致？ 知识口径一致决定了Al Agent 是否能言而有据，在各种不同场景下都能输出与企业标准保持一致的信息，真正承担岗位职责。在落地前，需要确保 Al Agent 的知识来源是否能够覆盖关键业务文档和规则，是否具备有效的知识库版本管理机制。

第三，看观测与治理层，Al Agent 是否透明可控？Al Agent 在业务链路运行时，是否有一套完善的观测体系监控其执行效果和行为轨迹，是否能及时检测到异常情况，定位异常触发点，分析原因并最终解决。

第四，看结算口径层，Al Agent 价值是否能与财务对齐？RaaS 模式下，Al Agent 岗位职责是否可以拆分成多个可验收的明确节点，定义能与业务流程对齐的、清晰的 SLA，从而公平准确地衡量 Al Agent 价值。

4 结语：下一站是哪里？

当前的企业级 Al Agent 已经成功实现了从工具到岗位的跃迁，下一站，是从具备通用能力的 Al Agent 转向岗位专家。

其一，通过构建全流程数据工程体系，实现能力的深化。 比如，百融云创正通过 “自动化清洗 - 专家话术提纯 - 合成数据扩充” 的工业化生产线，将金融营销、贷后管理等场景的优质语料转化为高质量训练数据，结合强化学习（RL）优化奖励模型，使主动大模型的沟通策略、风险识别能力向 “金牌员工” 对齐。

其二，通过多样化能力实现场景的细化。 以金融行业为例，在客户通话过程中，Al Agent 可以引导客户查看或操作相关业务内容，同时根据客户的实时反馈自动调整沟通流程、表达方式甚至使用不同的方言，从而满足客户更多的细分场景。

当企业级 Al Agent 成为岗位专家，能以模板化方式复用，并且这些能力能够与企业的财务口径对齐时，规模化部署的条件就真正具备了。届时，或将同时激发供需两端活力，实现真正的人机共存。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业