微信扫码
添加专属顾问
我要投稿
LangChain最新报告揭示:AI Agent落地最大挑战已从成本转向输出质量,客服与研究成最热应用场景。核心内容: 1. AI Agent落地现状:57%企业已投入生产,大企业推进更快 2. 两大热门应用场景:客户服务与研究数据分析占据半壁江山 3. 质量与可靠性成为商业化落地的核心挑战
2025 年,让 Agent 实际投产、落地应用的最大障碍已经不再是成本问题了,而是「质量」。如何让 Agent 输出可靠、准确的内容,仍然是最难的部分。
近期,LangChain 通过对工程师、产品经理、企业高管等 1300 名行业人士进行调查,深度调研了 AI Agent 目前最真实的应用情况。
进入 2026 年,企业对于 Agent 的讨论焦点,已经从「要不要做」全面转向了「如何规模化、可靠且高效地用好」。
6 个关键结论:
Agent 实际落地应用趋势明显。57% 的受访者已将 Agent 投入到生产环境中,且规模越大的企业,落地速度越快;
客户服务、研究与数据分析是目前 Agent 最火热的两大应用方向,两者合计占据了所有应用场景的一半以上。说明,在重复性高、知识密集或直接面向客户的工作中,Agent 能最大化地创造价值;
确保 Agent 输出的结果稳定可靠,依然是商业化落地中最棘手的难题。相比之下,成本已不再是大家最头疼的问题,行业的关注点正从「省钱」转向「如何让产品做得又快又好」;
Agent 的「可观测性」已经成为行业标配。大多数团队,都会对 Agent 进行全面追踪,记录内部运行状态和行为模式;
关于 Agent Evals 的实践还不够成熟。约半数团队会进行离线评估,只有约三分之一的团队会在真实的生产数据上进行在线评估。
Coding Agent 是大家在日常工作中使用最频繁的。此外,仍有相当一部分受访者表示,除了聊天或编程助手,还没用过其他类型的 Agent。
⬆️关注 Founder Park,最及时最干货的创业分享
超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
调研数据显示,超过一半(57.3%)的受访者已经将 Agent 投入实际生产,另有 30.4% 的人正在开发且有明确的上线计划。
这一数字比去年的 51% 有了明显增长,行业正在从「概念验证」快速迈向「价值实现」阶段。
规模越大,行动越快
一个有趣的现象是,万人以上的大型企业中,已经有 67% 将 Agent 投入生产,24% 正在积极开发并计划部署;而在百人以下的小公司,这个比例是 50% 和 36%。这说明,大型企业凭借平台、安全和基础设施上等方面的资源优势,能更快地将 Agent 从试验品变成稳定可靠的生产力工具。
客户服务(26.5%)成为最普遍的 Agent 用例,研究与数据分析(24.4%)紧随其后。两者合计占据了所有应用场景的一半以上。
客户服务用例的亮眼数据,说明企业正在大胆地将 Agent 直接推向一线,面向真实客户,不仅仅是限于内部使用。
同时,Agent 在企业内部也创造了显著价值,例如,有 18% 的受访者将其用于内部工作流程自动化,来提升员工效率。
研究与数据分析用例的普及,再次证明了 Agent 在海量信息整合、跨源推理和加速知识型工作方面的核心优势。
值得注意的是,今年的应用场景分布更广,说明 Agent 的应用正在从几个早期领域向更多元化的方向渗透。
规模化应用中的场景差异
在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景。这或许说明,大企业倾向于先在内部用 AI 提升团队运营效率,然后再将其推广到外部客户。
和去年一样,质量仍然是阻碍 Agent 大规模应用的最大障碍,三分之一的受访者将质量视为主要瓶颈。这里的质量问题,指的是 Agent 的准确性、相关性、输出结果的一致性,以及在维持适切语调、遵循品牌或政策规范方面的能力。
延迟(20%)则成为第二大挑战。当 Agent 被用于客服或代码生成这类实时交互场景时,响应速度直接决定了用户体验的好坏。这也反映出团队必须在「效果」和「速度」之间做出权衡,功能更强、步骤更多的 Agent 虽然能产出更高质量的结果,但响应速度往往也更慢。
一个积极的变化是,随着模型价格下降和技术优化,成本已不再是大家最头疼的问题。团队的关注点正从单纯的开销转向如何让 Agent 运行得更好、更快。
不同规模企业的痛点问题不一样
对于员工数超过 2000 人的企业来说,质量问题仍然是首要障碍。但对安全问题(24.9%)的关注度超过了延迟问题,成为仅次于质量的第二大挑战。
对于员工数超过 1 万的企业,在开放式回答中,许多大企业提到「幻觉」和生成内容的一致性是保证质量的最大挑战,同时在上下文工程及大规模管理上下文方面方面也是困难重重。
能够追踪 Agent 多步推理链和工具调用的能力,已成为一项基本要求。89% 的企业已为其 Agent 实施了某种形式的可观察性,其中 62% 拥有详细的追踪能力,允许他们审查单个步骤和工具调用。
在已有 Agent 投入生产的受访者中,这一比例甚至更高:94% 部署了可观察性,其中 71.5% 具备了完整的追踪能力。这揭示了 Agent 工程的一条基本准则:如果无法洞察 Agent 的推理与行动过程,团队将无法可靠地排查故障、优化性能,也无法与内外部的利益相关者建立信任。
追踪 Agent 多步推理链和工具调用的能力,已经成为了一项行业标配。高达 89% 的团队部署了可观察性系统,其中 62% 能够进行细粒度的追踪,审查每一步的细节。
对于已经投入生产的 Agent 项目,这个比例高达 94%,其中 71.5% 具备了完整的追踪能力。这背后是 Agent 工程领域的一个基本共识:如果无法洞察 Agent 的思考推理与行动过程,团队将无法可靠地排查故障、优化性能,也无法与内外部的利益相关者建立信任。
虽然可观察性已经普及,但 Agent 评估仍是相对较新的领域。
超过半数(52.4%)的企业表示,会通过测试集进行离线评估,这说明许多团队已认识到在部署前发现性能衰退和验证 Agent 行为的重要性。
在线评估(37.3%)的采用率较低,但随着团队开始监控 Agent 在真实世界中的表现,这个比例正在增长。
当 Agent 进入生产环境后,评估变得更为重要。「不进行任何评估」的团队比例从 29.5% 大幅下降至 22.8%。进行在线评估的比例则上升至 44.8%,因为团队需要通过观察真实的生产数据来实时发现问题。
但大多数团队仍然是从离线评估入手,因为门槛更低、设置更明确。
在评估方法上,行业呈现出了混合模式。近四分之一的团队会同时采用离线和在线两种评估方式。
大家普遍依赖人机结合的方法:一方面,采用将大语言模型用作评判者(LLM-as-judge)(53.3%)的方式来扩大评估的覆盖面,同时通过人工审查来保证评估深度;另一方面,通过人工审查(59.8%)来保证评估的深度,尤其是在处理精细或高风险场景时。
相比之下,像 ROUGE 和 BLEU 这样的传统机器学习指标采用率较低,因为它们不适合评估开放式、存在多个合规答案的 Agent 交互场景。
虽然 OpenAI 模型在采用率上占主导地位,但几乎没有团队会把鸡蛋放在一个篮子里。
超过三分之二的企业正在使用 OpenAI 的 GPT 模型,超过四分之三的团队在生产或开发中会使用多种模型。大家越来越倾向于根据任务的复杂度、成本和延迟,灵活地将任务分配给不同的模型,而不是绑定在某一个平台上。
尽管商业 API 提供了便利,但在内部署模型对许多组织而言仍是一项重要策略。超过三分之一的组织仍在投资部署开源模型,主要是出于成本优化、数据主权或行业监管合规的考虑。
与此同时,微调(Fine-tuning)仍然没有成为主流选择。 57% 的组织没有进行微调,而是更依赖于提示工程和 RAG(检索增强生成)技术。主要是因为微调需要在数据收集、标注、训练基础设施和持续维护上进行大量投入,目前仍是少数高价值或专业化场景的选择。
在日常工作中,最常用哪些 Agent?在开放式问答中,我们发现了几个清晰的模式:
编程 Agent 主导日常工作流。
到目前为止,绝大多数被提及的都是编程类工具,如 Claude Code,Cursor,GitHub Copilot,Amazon Q、Windsurf 和 Antigravity 等工具。这些工具被广泛用于代码生成、调试和测试。
研究类 Agent 是第二大常用类别
第二常见的模式是由 ChatGPT、Claude、Gemini、Perplexity 及类似工具驱动的研究与深度研究 Agent。这些 Agent 被用于探索新领域、总结长篇文档以及整合跨源信息,常常在同一工作流程中与编程 Agent 协同使用。
基于 LangChain 和 LangGraph 构建的自定义 Agent 也广受欢迎。
许多团队正在利用这些框架构建内部专用的 Agent,用于 QA 测试、知识库搜索、SQL/文本转 SQL、需求规划、客户支持和工作流自动化等场景。
值得注意的是,仍有相当一部分受访者表示,除了聊天或编程助手,他们还没用过其他类型的 Agent。这说明,虽然 Agent 概念很火,但「一切皆可 Agent」的愿景仍处于非常早期的阶段。
注:报告研究方法
本报告的数据来源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期间进行的一项公开调查,共收到 1340 份有效回复。
行业分布 Top 5:科技(占受访者的 63%)、金融服务(占受访者的 10%)、医疗健康(占受访者的 6%)、教育(占受访者的 4%)、消费品(占受访者的 3%)、制造业(占受访者的 3%)。
公司规模分布:少于 100 人(占受访者的 49%)、100-500 人(占受访者的 18%)、500-2000 人(占受访者的 15%)、2000-10,000 人(占受访者的 9%)、超过 10,000 人(占受访者的 9%)。
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
转载原创文章请添加微信:founderparker
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-21
文档审核Agent2.0系统落地方案:LangChain1.1+MinerU
2025-12-21
LangChain、Dify、n8n、Coze框架对比
2025-12-20
涌现观点|LangChain 2025 报告发布:57%的企业在用Agent,但32%的人被"质量"卡住了
2025-12-18
2025 LangChain智能体工程年度报告发布!AI智能体从画饼到吃饼
2025-12-17
智能体LangChain v1.0生态解读与迁移建议
2025-12-08
让AI智能体拥有像人类的持久记忆:基于LangGraph的长短期记忆管理实践指南
2025-12-04
Agentic RAG这样用LangChain解决复杂问题
2025-12-01
Deep Agent 进化论:基于文件系统的 Context Engineering 深度解析
2025-11-03
2025-10-23
2025-10-19
2025-11-06
2025-10-31
2025-11-05
2025-10-23
2025-11-01
2025-10-15
2025-10-09
2025-11-03
2025-10-29
2025-07-14
2025-07-13
2025-07-05
2025-06-26
2025-06-13
2025-05-21