免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

企业级 AI Agent规模化落地的避坑指南,就藏在这四大趋势里

发布日期:2025-12-02 15:19:24 浏览次数: 1566
作者:InfoQ

微信搜一搜,关注“InfoQ”

推荐语

企业级AI Agent落地难?四大趋势揭示规模化应用的关键解法。

核心内容:
1. MCP协议如何成为AI应用的"USB-C接口",降低集成与运维成本
2. GraphRAG技术突破传统检索瓶颈,实现精准知识关联
3. AgentDevOps与RaaS模式如何重构企业AI采购与价值评估体系

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

SaaS 用不好常卡在“最后一公里”。但 Al Agent 用不好,问题会出在“每一公里”。

2025 被普遍视为企业级 Al Agent 的落地拐点:企业从“试试看”走向“用起来”,技术叙事让位于业务结果。美国著名通信 API 服务机构 Plivo 的调研显示,超过六成企业将 Al Agent 列为未来 12 个月的关键布局,“价值导向型”采购兴起,RaaS(结果计费) 正压过传统 SaaS(功能交付)。读懂 MCP / GraphRAG / AgentDevOps / RaaS 四大趋势,基本就抓住了“能干活的 Al Agent”的工程化答案。
1 企业级 Al Agent 究竟缺什么?四大趋势给出可复用的工程化解法
趋势一:MCP 让 Al Agent 可扩展

2024 年年末,Claude 母公司 Anthropic 首次在《Introducing the Model Context Protocol》一文中提出 MCP(Model Context Protocol,模型上下文协议)。这是一个能够实现大语言模型与外部数据源和工具集成,并建立安全双向连接的开源协议。为了更加具象化地向公众解释这个新词汇,Anthropic 在 MCP 文档中称“可以把 MCP 想象成 AI 应用的 USB-C 接口”,开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型,极大地降低了企业在 Al Agent 项目中的集成与运维成本。

Claude 3.5 Sonnet 第一个“吃螃蟹”,支持快速搭建 MCP 服务器;早期实践者 Block 和 Apollo 也在第一时间将 MCP 集成进自身系统。随后的一年时间里,MCP 迅速成为 AI 原生应用的重要基础设施,并得到了多家海内外科技巨头们的关注:微软、谷歌、亚马逊云科技纷纷将 MCP 集成到自家的 AI 服务中,OpenAI 在 Al Agent SDK 中支持 MCP,BAT 也密集布局 MCP 协议。社区的广泛支持则代表了 MCP 在开发者生态中已经成为事实标准:GitHub、Hugging Face 上涌现了数千个由社区贡献的 MCP Server,覆盖数据库、云服务以及各类 SaaS 应用。11 月 25 日官方发布的 MCP 周年博文中更是指出,MCP 注册表中收录的服务器数量已接近 2000 个,生态扩张速度可见一斑。

但生态上的繁荣掩盖不了 MCP 在落地层面所面临的现实挑战,尤其对于中国企业而言,标准碎片化、安全治理以及运维管理层面上的难题愈加突出。标准层面,国内不少企业都基于自身业务生态推出了差异化 MCP 方案,实际运行中协议不匹配问题频发,从而导致 Al Agent 协同能力受限。安全治理层面,MCP Server 认证生态混乱,权限边界模糊,一旦被攻破,攻击者可跨服务访问敏感数据。此外,当前 MCP 协议在身份验证、操作审计等关键安全模块上尚不完善,难以满足强监管行业更高的合规要求。运维管理层面,MCP Server 往往需要单独部署,这也带来了资源隔离与弹性伸缩的现实难题。

企业级 Al Agent 要想跨越从“可用”到“好用”的鸿沟,就必须需要一套更体系化的 MCP 方法论,在开源协议之上,重建统一、可治理、轻运维的连接层,而非简单的单次集成。在全球范围内,已经有多家企业验证这一方向。最早采用 MCP 的公司之一 Block,将 MCP 用作多工具协调层,使得内部 Al Agent 可统一访问支付、风控和客服系统,降低接口维护成本。一些开发者工具公司,如 Replit、Zed,也在生产环境中增加对 MCP 的支持,通过统一连接层让 AI Agent 能够跨代码仓库、调试工具、构建系统进行组合式操作,从而提升了任务的成功率与可观测性。在国内,类似的工程路径也在逐渐成型。以百融云创为例,其推出的结果云 Results Cloud 与企业级智能体平台百融百工以 MCP 作为连接底座,对多模型、多工具进行统一接入与治理,降低企业运维与扩展成本。这些案例都表明,基于 MCP 构建统一治理层,已经成为企业级 Al Agent 发展的必然趋势。

趋势二:GraphRAG 让回答不再乱

GraphRAG 是由微软提出的结合了知识图谱和 RAG 技术的新方法。传统 RAG 更像是检索增强,依赖向量召回与文本匹配,擅长从外部知识库中检索相关信息,却难以保证跨文档、跨版本的口径一致性。GraphRAG 在 RAG 的基础上进一步引入了知识图谱,将信息以节点和边的形式存储,构建实体关系网络,使得大模型不仅能检索文本片段,还能理解深层逻辑关系。进而,确保 Al Agent 的回答内容更加全面且一致。在适用场景上,GraphRAG 适用于所有“长文、多跳、强逻辑、需可解释”的复杂业务文档场景,能把回答准确率提升 20–50 个百分点,并将 token 成本降低 10–100 倍,尤其适用于金融、保险、医疗、法律等高价值领域。

image

图片来源:Medium 博客

GraphRAG 同 MCP 一样选择了开源,这也加速了工程落地的脚步,社区基于此衍生出了多种更易用的模板。在 GitHub、Hugging Face 社区中,有多个项目基于微软的官方实现,创建更轻量、更易于使用和定制的版本。此外,包括 LangChain 在内的多个主流开源框架,也已支持 GraphRAG 流程,将图结构检索能力与 RAG 模型结合,以构建更强大的知识系统。

但在落地层面,GraphRAG 面临的现实挑战同样复杂。其一,知识图谱的构建复杂度较高,企业知识分散在 PDF、PPT、表格与图片等多个源头,提取和解析难度较高;其二,知识版本治理缺失,由于缺乏统一的版本控制机制,Al Agent 在回答时容易引用过期规则;其三,全局召回的工程复杂度高,GraphRAG 在 RAG 的向量召回基础上引入了图谱召回,使得 Al Agent能够更深层地理解上下文,但全局召回需要企业对全量知识进行解析,此外,一些简单的问题可能也会触发复杂的全局检索,引入无关信息,增加成本。

因此,一套更加工程化的 GraphRAG 方法论正在中国企业中形成共识,其核心目标不是构建“庞大的知识库”,而是构建“可治理的知识资产链路”。在国内,不少技术团队都在沿着这一大方向推进工程化实践,只是在具体路径和侧重点上有所不同。以百融云创的实践为例,其工程体系主要围绕三大核心能力展开:第一,高精度文档解析,只有在解析阶段达到足够高的准确率,才能更可靠地支撑后续的图谱构建、全局检索;第二,版本治理,以金融行业为例,规章制度每年迭代,各版本之间的关系复杂,必须依靠有效的知识库版本管理机制,对其进行可控管理;第三,意图澄清能力,在实际对话中,用户的意图往往比较模糊,需要基于结构化知识树做可控的意图澄清,才能精准地获取用户实际问题,最终输出可靠的答案。

在这一体系中,关键的技术难点包括领域图谱 RAG 的构建以及 RAG-U 型检索(U-Retrieval)。以百融云创的 FinGraphRAG 为例,在构建金融图谱 RAG 时,需要经历文档分块 (Doc Chunking)、实体抽取(Entities Extraction)、三重链接(Triple Linking)、关系构建 (Relationship Linking)、图谱标签化(Tag the Graphs)、通过 U-Retrieval 响应查询 (Response via U-Retrieval)六大链路,整个链路的目标都是将非结构化知识转化为结构化、可推理的图谱体系,从而解决金融领域中长文本(年报、研报、会议纪要)、专业术语歧义和复杂因果推理的问题。

image

图片来源:https://arxiv.org/pdf/2408.04187

为了兼顾精确性与全局视野,金融图谱 RAG-U 型检索还需实现自顶向下的精确检索与自底向上的响应优化。在自顶向下的精确检索阶段,需要先为查询打标签,并沿 tag 索引树自顶向下路由,在目标图谱中选取关键实体与邻居,最终根据图谱生成初始回答;在自底向上的响应优化阶段,需要从刚才选中的叶子节点往上走,依次访问其父级标签摘要,每向上一层,就向 L_R 提供 QUESTION: {Q}、LAST RESPONSE: {A_{i}}、SUMMARY: {T^{(i-1)}},并要求其“根据更上层的摘要信息,修正 / 补充上一轮回答”,最终在顶层得到一个既保留底层图谱细节,又融合更宽广全局视角的回答。进一步而言,U 型检索像是在金融知识图谱中先钻入某个最契合问题的“细颗粒业务簇”(例如“客户 B 在过去一年内的境外大额转账模式”),基于局部图输出精准判断,再一路向上,把“客户整体资产负债情况”“他所在行业的宏观景气度”“同地区同客群的历史违约率”等高层上下文逐步加回到回答中。

趋势三:AgentDevOps 让 Al Agent 真的可控

随着企业将更多流程交给 Al Agent 执行,业界开始形成一个清晰共识:Al Agent 的开发与运维无法继续沿用传统 DevOps 模式,需要一套针对 “推理型系统” 的工程体系,即 AgentDevOps。不同于传统 DevOps 聚焦系统可用性与部署效率,AgentDevOps 的核心目标是 确保 Al Agent 的行为质量、任务完成度与推理链路的稳定性,让 Al Agent 能够持续输出可靠结果。

从行业角度来看,AgentDevOps 与传统 DevOps 的根本差别体现在四个方面:

  • 第一,责任对象不同——从系统可用,转向对业务结果负责。Al Agent 的价值不体现为“服务正常”,而体现为“任务是否完成”“判断是否正确”。

  • 第二,观测维度不同——从指标监控,转向推理链路可观测。 行业普遍认为 Al Agent必须具备 Reasoning trace(推理轨迹),包括意图 →检索 →推理 →工具调用→输出的全链路可追溯性。

  • 第三,调试方式不同——从代码调试,转向行为调试。 传统日志无法解释“为什么答错”,AgentDevOps 需要能复现推理路径、定位错误来源。

  • 第四,优化机制不同——从人工调参,转向基于数据的持续自我优化。Al Agent需要按照真实反馈不断提升判断质量,而不是静态上线。

图片来源:https://arxiv.org/pdf/2508.02121v1

目前,业界对于 AgentDevOps 的系统性研究仍处于探索阶段,但已有不少企业开始将其从工程理念推向生产级实践。今年 3 月,LangSmith 为基于 LangChain 或 LangGraph 构建的应用程序提供完整的端到端 OpenTelemetry 支持,开发者可以记录 Al Agent 的推理链路、工具调用、RAG 检索 / 检索调用历史等。微软 AutoGen 也通过与 OpenTelemetry 的集成,让 Al Agent 的多轮对话、节点分支和工具执行过程实现结构化记录,并可将这些 trace 统一输出到 LangSmith 或第三方可观测平台。

在企业级 Al Agent 体系中,要想做到工程化的治理与可观测,需要具备回放、A / B 测试、审计、以及基于 SLO(服务质量目标)/ SLA(服务质量协议)的质量与结果保障这四种关键能力。 但相比海外的体系化探索,中国企业在构建 AgentDevOps 能力体系时面临的挑战更加复杂。在回放能力方面,很多 Al Agent 可能运行在云端、本地部署等多套系统中,运行轨迹难以完整捕获;在 A / B 测试方面,评估体系仍不不成熟,难以科学地对比不同 Al Agent 策略的优劣;在审计方面,Al Agent 的每一个决策都可能需要接受审查,但现有工具链往往无法完整记录 Al Agent 对知识版本、策略选择和工具调用的依据;在 SLO / SLA 方面,传统的 SLA 主要承诺系统的可用性与响应延迟,但企业级 Al Agent 在业务场景中还缺乏明确的指标口径。

厘清这些挑战,还需要一套务实的方法论。当前,中国企业的 AgentDevOps 方法论正在逐步成型。比如,百融云创就在行业共识的基础上,对 AgentDevOps 能力体系做了进一步增强,并从四个方面推进 AgentDevOps 落地:

(1)全流程工程能力:覆盖开发 - 调试 - 部署 - 监控 - 优化的全链路,并形成标准化、可追踪的工程体系;

(2)场景化评估器:在业务维度实时跟踪“硅基员工”的实际表现,让企业能看到每一个节点、每一个业务指标的变化,从而真正做到价值可视化;

(3)半监督自适应优化:在开发阶段自动搜索最优参数与 Prompt 组合,使 Al Agent 快速达到可上线标准,减少冷启动成本;

(4)强化学习增强的在线优化:在运营阶段基于回流数据持续迭代策略,让 Al Agent 随使用不断更稳、更佳。

在落地实践中,这些系统性增强带来显著且可量化的效果,比如,人工调参与维护的成本显著下降,Al Agent 的上线周期大幅缩短,并且超过 70% 的典型应用场景实现了自动优化,稳定性提升明显,Al Agent的产出质量持续增强。

趋势四:RaaS 让 AI Agent 能用 KPI 说话

正如前文所言,RaaS 作为一种新兴的服务交付模式,正在全球范围内对 SaaS 发起挑战,甚至市面上出现了不少“RaaS 是 SaaS 的未来”“90% 的 SaaS 企业将面临淘汰”等声音。今年 5 月,全球顶尖 AI 创始人齐聚旧金山,在红杉资本第三届 AI 峰会(AI Ascent 2025)上达成重要共识:人工智能正迎来一场根本性变革,其核心不再是出售技术工具,而是直接交付可衡量的业务成果和收益。 简单来说,RaaS 的核心理念就是让客户为可衡量的业务成果付费,而不仅仅是为软件访问权限或流程付费。

在海外,很多创新型公司都已经成功应用了 RaaS 模式。比如 Simple.ai 根据客户满意度评分的提高或问题解决时间的缩短向客户收费,将定价与结果直接挂钩;Freightify 根据运输成本的节省或货运管理时间的减少来收费;客服 SaaS Kustomer 彻底取消订阅制,改为按问题解决量收费;Salesforce 推出 Agentforce,对话式 AI 按每次有效对话 2 美金计费……

但企业在推进 RaaS 模式之前,还需要回答一个最关键的问题:如何对齐结果计价与财务口径? 换句话说,怎样的结果算是符合客户预期?按结果验收又该怎么验收?最突出的矛盾是,不同岗位对于不同业务场景中的结果,评价标准本就存在明显差异,比如,同样是客服岗位,售前咨询场景关注响应速度、转化率,售后服务场景关注问题解决时效、满意度,跨部门协作场景关注信息流转的完整性与合规性。这种多维度、多口径的评价标准,使得企业与客户难以就清晰、客观、可验证的“结果”定义达成一致。此外,企业在从传统的按账号和席位收费的模式,转向按结果计费时,也会面临体系衔接等挑战,如何平稳过渡又是一大难题。

根据国内第一批践行 RaaS 模式的企业实践路径,一个可行的方向是 将抽象的结果转化为可度量、可兑现的 SLA 项。比如,客服 Al Agent 不是按席位或调用次数报价,而是围绕接通率、有效对话轮次、邀约 / 转化量、误报率等 SLA 项与客户对齐价值,每一项都有明确的数字和验收标准,更具象化地体现了 Al Agent 的业务价值。百融云创推出的硅基员工也是基于这一模式,将 AI Agent 原生地嵌入企业级工作流和 SLA,让硅基员工像人一样接受 SLA / KPI 考核,与业务成果直接绑定,创造的价值再进行收益分享。

当 MCP、GraphRAG、AgentDevOps、RaaS 这四大趋势逐渐清晰,并在产业侧进入工程化成熟期时,企业级 Al Agent 的落地路径也就有了更准确的答案。如果把这些能力真正放进企业的真实业务场景,会发生什么?最直观的变化就是,Al Agent 不再是辅助工具,而是能够承担具体岗位职责,并且可以像人类员工一样接受 KPI 考核。

2 什么样的 AI Agent “能干活”?企业的一线标准都在这里

在 金融、汽车、公共服务、招聘 / HR 等高触达链路,Al Agent 落地已从试点走向规模化,逐步形成了一批 可检验、可复用 的企业级样本。

其中,最典型的一类是 面向大规模触达的营销 / 运营 场景。以金融为例,在触达庞大规模的客户群体时,传统方式通常依赖人工外呼,AI 技术改造后,虽然效率提升了,但在意图识别、交互体验上还一言难尽。如今,借助大模型与多智能体,金融行业在进行存款产品的智能营销时,能通过深度解析客户通话,精准识别意图,自动生成对话文本与服务小结,同时依据客户关注的收益率与流动性偏好,智能匹配存款产品并形成个性化营销策略。

这对底层大模型的能力要求就是,不能再是传统的“一问一答”式,必须变被动为主动,能主动推进、主动谈判、主动沟通。百融云创研发的 BR-LLM-Speech 就是结合了大语言模型、强化学习技术和多模态端到端主动大模型,能结合实际业务目标动态制定策略,主动引导对话,并且在交互层面,响应速度在 200ms 以内,多轮对话 ≥ 100 轮。

不要小看 200ms 这个数字,这背后实际上是对整条实时语音链路的极高要求——因为真正的实时语音 Al Agent,并不是“一个 RTC 就能搞定”的事情。RTC 只是实现实时性的基础,真正决定用户能否获得“像真人一样顺畅沟通”的体验,是整条端到端语音智能链路的协同优化能力。

要想实现这项能力,需要突破四大瓶颈:

  • 第一,ASR → LLM → TTS 的多段式模型链路。在真实业务场景中,一条语音必须经过“语音接入 → ASR 解码 → LLM 多轮推理 → 工具调用 → 业务系统访问 → 文本生成 → TTS 合成 → RTC 回传”,这条链路远比视频会议复杂得多。ASR 可能需要累计帧,LLM 可能触发多次子调用,TTS 可能需要韵律调制,这些都会形成 200–800ms 的模型计算延迟。因此即便 RTC 只有 30ms,端到端仍可能超过 2 秒。

  • 第二,端到端模型并行带来的调度与资源管理。实时语音链路不是单模型推理,而是要结合多模态输入的语义完整度、说话人识别、端到端的语音理解和生成。GPU / KV-cache 管理、音频帧批处理、模型复用、上下游同步,是工程上挑战极大的部分。

  • 第三,实时语音场景对稳定性提出极端要求。一个轻微的 jitter、一次不完整帧、一次延迟积累,就可能造成体验“顿一下”。这就要求从 RTC 到模型 pipeline 必须做到精细帧级调度、音频包级容错、模型级 backpressure、实时工具调用(超时与重试),以及推理链路的动态裁剪。这些已经超出传统 RTC 能力的范畴,需要完整语音 pipeline 的系统性优化。

  • 第四,多模态化带来的算力压力。当场景加入更多模态之后,模型中各 block 处理耗时不同,依靠百融自研的推理框架(Vortex),实现算力模块的精细化调度,才能让多模型真正“汇流”。

总的来说就是,RTC 是实时语音的基石,但决定 用户是否“感觉实时” 的关键,是企业是否具备 完整的模型 → 工具链路 → RTC 的端到端语音智能 pipeline 优化能力。百融百工的差异化优势也来自于此。通过自研实时语音模型、语义 VAD、零样本 TTS、RTC 深度整合、Vortex 多模型融合推理,再加上 AgentDevOps 的自动评估与调优,能在真实业务中实现 200ms 的自然对话体验。

另一类典型场景来自招聘 / HR。招聘链路同样面临候选人规模大、沟通频次高、人工成本高、反馈窗口短等现实压力,因此,企业期望通过引入企业级 Al Agent,以更稳定、可持续的智能能力重构流程:一是 AI 独立的初筛与邀约能力,在高峰期对大量候选人完成意向澄清、时间协调与到访安排,承担重复性沟通;二是 AI 辅助招聘官能力,针对关键岗位做前置初筛与异议处理,输出候选人画像与风险点,提升邀约到访率,降低“无效沟通”,实现降本增效。

在百融云创与某大型企业的人才招聘项目中,面向蓝白领混合岗位,Al Agent 相比早期方案邀约到访率更高平均处理时长显著缩短,且 无效沟通占比下降;由于 AI 在前置环节进行了高效干预,线下面评资源被更有效地分配至高优先级候选人,从而降低整体人力投入。招聘链路的另一关键在于 知识治理Al Agent 在回答岗位 JD、薪酬带宽、福利政策、背景调查口径等问题时,必须 答得上且口径一致,才能真正承担招聘岗位的职责。在知识治理层面,Al Agent 文档解析准确率可达 95% 以上,为招聘链路的可控性提供保障。

虽然不同岗位对 Al Agent 的能力要求各有侧重,但无论场景如何变化,准确性和稳定性都是 Al Agent 能干好活的前提。在提升 Al Agent稳定性,保障其能在线自主持续学习方面,百融云创提出了 Training Free 技术,不依赖模型微调,而是通过客户反馈的 Bad Case 提炼经验,动态优化提示词。这些经验会与提示词动态结合,持续修正 Al Agent 行为,让 Al Agent 具备自适应优化能力。

这些案例表明,企业级 Al Agent 正在越来越深入地嵌入业务链路,承担着具体的岗位职责。而当企业级 Al Agent 从点状创新走向组织级重构,将为业界带来一套新的规则也未可知。

3 企业级 Al Agent 上岗前,先通过这份自检清单

在迎接这一宏大叙事前,企业还需要一份实用的 Al Agent 落地实践自检清单。对应着前文提到的四大重要趋势,这份 Checklist 已然清晰。

第一,看连接协议层,Al Agent 是否能丝滑融入现有业务? 对内,Al Agent 能与企业核心系统安全、稳定地对接,对外,Al Agent能与外部生态进行交互。其中,任何一个不明确的连接协议,都可能导致任务执行中断、数据丢失或响应延迟,直接影响 Al Agent 的业务产出和用户体验。

第二,看知识口径层,Al Agent 是否答得上且口径一致? 知识口径一致决定了Al Agent 是否能言而有据,在各种不同场景下都能输出与企业标准保持一致的信息,真正承担岗位职责。在落地前,需要确保 Al Agent 的知识来源是否能够覆盖关键业务文档和规则,是否具备有效的知识库版本管理机制。

第三,看观测与治理层,Al Agent 是否透明可控?Al Agent 在业务链路运行时,是否有一套完善的观测体系监控其执行效果和行为轨迹,是否能及时检测到异常情况,定位异常触发点,分析原因并最终解决。

第四,看结算口径层,Al Agent 价值是否能与财务对齐?RaaS 模式下,Al Agent 岗位职责是否可以拆分成多个可验收的明确节点,定义能与业务流程对齐的、清晰的 SLA,从而公平准确地衡量 Al Agent 价值。

4 结语:下一站是哪里?

当前的企业级 Al Agent 已经成功实现了从工具到岗位的跃迁,下一站,是从具备通用能力的 Al Agent 转向岗位专家。

其一,通过构建全流程数据工程体系,实现能力的深化。 比如,百融云创正通过 “自动化清洗 - 专家话术提纯 - 合成数据扩充” 的工业化生产线,将金融营销、贷后管理等场景的优质语料转化为高质量训练数据,结合强化学习(RL)优化奖励模型,使主动大模型的沟通策略、风险识别能力向 “金牌员工” 对齐。

其二,通过多样化能力实现场景的细化。 以金融行业为例,在客户通话过程中,Al Agent 可以引导客户查看或操作相关业务内容,同时根据客户的实时反馈自动调整沟通流程、表达方式甚至使用不同的方言,从而满足客户更多的细分场景。

当企业级 Al Agent 成为岗位专家,能以模板化方式复用,并且这些能力能够与企业的财务口径对齐时,规模化部署的条件就真正具备了。届时,或将同时激发供需两端活力,实现真正的人机共存。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询