我要投稿

涌现观点｜LangChain 2025 报告发布：57%的企业在用Agent，但32%的人被"质量"卡住了

发布日期：2025-12-20 06:15:52 浏览次数： 1964

作者：涌现聚点

微信搜一搜，关注“涌现聚点”

当我第一次看到 LangChain 2025 年报告里的那个数字时，以为是统计脚本出了 bug。

57%。

是的，57% 的受访企业表示，他们的 AI Agent 已经跑在生产环境里了。

如果你还在朋友圈刷"全自动写代码"、"一键生成3D游戏"的Demo视频，那你可能还活在2024年的泡沫里。这个数字打破了我们所有的刻板印象，Agent 不再是 Github 上那些昙花一现的 Demo，也不是极客们自嗨的玩具。

但在另一个图表里，我看到了一个更扎心的数据：32% 的团队把"质量"列为头号落地障碍，远远超过了"成本"和"延迟"。

那一刻，我突然明白了。2026 年的主题词不是"AGI"，而是"枯燥"。Agent 终于从实验室走进了企业的业务流水线，但就在它准备大干一场的时候，却被"质量"卡住了。

Agent 终于穿上了工装

如果你的朋友圈还在被"全自动写代码"、"一键生成 3D 游戏"刷屏，那说明你还活在 2024 年的泡沫里。

LangChain 2025 报告^[1]的数据告诉我们，真实的战场极其朴素：客服（26.5%）和数据分析（24.4%）占据了半壁江山。企业不再寻找那种能毁灭人类的超级智能，他们只想要一个能准确回答退款政策、能帮分析师把 Excel 表格整理好的助手。

"2026 年的主题词是'Boring but Useful'（枯燥但有用）。"

更有意思的是，万人以上的大企业（67%）比百人小团队（50%）跑得更快。这反直觉吗？一点也不。

这就像早期的云计算。小团队还在纠结是用 AWS 还是自己买服务器时，大企业已经把整套业务搬上去了。因为对于大企业来说，Agent 不是一个"新奇特"的技术，而是一次效率的"升维打击"。他们有钱、有人、有场景，更重要的是，他们有把 Agent 塞进现有业务流程的工程能力。

当"一眼定生死"的 Vibe Check 彻底失效

生产环境就是 Demo 的绞肉机。在这里，那一套靠运气和直觉的测试方法，连一分钟都撑不过去。

在旧范式里，我们是怎么测 Agent 的？大概率是"Vibe Check"，也就是"凭感觉测"。开发者随便输几个 Prompt，看看输出，"嗯，看着挺像那么回事"，然后就上线了。

这就像拿着放大镜去检查一座摩天大楼的每一颗螺丝钉，当你检查完第一层时，顶楼可能已经塌了。

但 Agent 不是静态的代码，它是一个会"思考"的系统。一个最终看似正确的答案，中间可能经历了一次错误的检索、一次危险的工具调用，最后只是运气好"蒙"对了。你检查了第一层的 Prompt，但顶层的推理链路可能早就出错了。

这就是为什么，生产环境是 Demo 的绞肉机。在这里，那一套靠运气和直觉的测试方法，连一分钟都撑不过去。

加拿大航空就为此付出了昂贵的学费。他们的客服聊天机器人"自作主张"地给一位乘客承诺了不符合规定的退款政策。当乘客拿着聊天记录去索赔时，加航试图辩解说"机器人是独立的实体，我们要对它负责吗？"法庭的判决是：赔钱。

812加元。这个数字不大，但它是一座墓碑。它宣告了"Vibe Check"时代的终结。

在多步推理的 Agent 系统里，错误是会"隐身"的。一个最终看似正确的答案，中间可能经历了一次错误的检索、一次危险的工具调用，最后只是运气好"蒙"对了。

LiveCodeBench 的数据^[2]更是给了我们一记重锤：DeepSeek-INS-1.3B 在传统的 HumanEval+ 榜单上能拿 60 分，但在更接近真实场景的 LiveCodeBench 上，只有 26 分。

你肯定见过那种经典的测试场景：一个模型在标准测试集上表现完美，但在真实业务里却漏洞百出。HumanEval 上的高分就像一只还在唱歌的金丝雀，而在真实代码库的矿井里（LCB 26分），它早就因为缺氧而倒下了。

企业如果还盯着那张过时的排行榜，就是在拿自己的业务做一场注定失败的赌博。

用"可观测性"买回安全感

恐惧是最好的驱动力。为了对抗这种不可知，89% 的企业抓住了同一根救命稻草：可观测性。

这不是什么新鲜词，但在 Agent 时代，它的意义变了。以前我们监控的是 CPU、内存、延迟；现在，我们要监控的是"思维"。

想象一下，给 Agent 的大脑做一次 fMRI 扫描。通过 Trace 工具，比如 LangSmith，工程师能看到每一个神经元是如何被点亮的。

当用户问："我的订单在哪里？" Agent 回答："您的订单已发货。"

在没有 Trace 的世界里，你只能看到这两句话。但在 Trace 的世界里，你能看到：

如果 Agent 回答错了，你能立刻定位：是工具调错了？是数据库没查到？还是 LLM 出现了幻觉？

这才是打开黑箱的唯一钥匙。但这里也有坑。OpenTelemetry 官方都发出了警告^[3]：全量 Trace 会带来巨大的数据洪流。你为了监控 Agent，可能要花掉比运行 Agent 本身还多的钱来存日志。

所以，聪明的团队开始做采样，或者只在出问题时开启全量 Trace。这也是一种博弈。

在 Agent 时代，监控不再是可选项，而是必需品。因为你看不见的，就是你不信任的。

给"聪明的大脑"装上一套考试系统

有了 Trace，我们能看到 Agent 怎么想了。但怎么知道它想得对不对？靠人看？

别逗了。当你每天有 10 万次调用时，你需要多少人来看日志？

于是，LLM-as-a-judge 应运而生。53% 的团队开始用 LLM 来评价 LLM。这听起来像是在"套娃"，但这是目前唯一可行的规模化方案。

你可能会问："让 GPT-4 去评价 GPT-4，它不会'自卖自夸'吗？"

确实会有 Bias。但我们可以通过精心设计的 Rubric（评分标准）和 Few-shot Examples 来约束它。更重要的是，它能 24 小时工作，不知疲倦，而且标准统一。

这也带来了另一个趋势：去魅单一模型。

75% 的企业开始使用多模型路由策略。简单的意图识别？交给微调过的 Llama 3 8B。复杂的逻辑推理？路由给 GPT-4o 或 Claude 3.5 Sonnet。

这就像一个成熟的公司：CEO（大模型）负责战略决策，实习生（小模型）负责整理会议纪要。谁也不会傻到让 CEO 去复印文件，那太贵了。

而且，大家发现 Fine-tuning 其实是个大坑。57% 的组织根本不碰微调。为什么？因为维护一个微调模型的成本太高了，而且很容易过拟合。相比之下，RAG + 好的 Prompt + 完善的 Evals 体系，才是性价比最高的工程路径。

在这个时代，最聪明的做法不是训练一个完美的模型，而是建立一个完美的路由系统。

从"人效提升"到"组织重构"

如果把时间线拉长到 2026 年底，我们会看到什么？

Agent 将从现在的"辅助者"变成真正的"代理人"。它不再是帮你写一段代码，而是帮你"把这个功能上线"。

质量就是生命线。忘了 Prompt 吧，你的 Evaluation Set（测试集）才是真正的护城河。它是你对业务逻辑的数字化沉淀，是你敢让 Agent 独立干活的唯一底气。

看看 Uber^[4] 和 Stripe 是怎么做的。他们不再让每个业务线自己瞎折腾，而是建立了统一的 AI 平台团队，提供标准化的评测、监控和网关服务。业务团队只需要关注 Prompt 和业务逻辑，剩下的脏活累活，平台包了。

这就是未来组织的雏形：平台集中化，应用分布式。

未来的组织，不是让每个团队都成为 AI 专家，而是让 AI 专家成为每个团队的基础设施。

所以，你应该问的是

当你在今天，看着屏幕上那个正在运行的 Agent，别再问"它能通过图灵测试吗？"这种傻问题了。

你应该问的是：
"我有它的运行 Trace 吗？"
"我有覆盖率超过 80% 的自动化测试集吗？"
"我敢让它在半夜三点独自处理客户的退款请求吗？"

如果答案是 No，那就别急着上线。

信任是昂贵的。在这个新范式里，工程化是唯一的赎买方式。

2026年，Agent 终于穿上了工装，走进了企业的业务流水线。但就在它准备大干一场的时候，却一头撞上了一堵叫"质量"的墙。

这堵墙，不是技术问题，而是信任问题。

而信任，从来不是靠"看起来不错"建立的，而是靠"每一次都可靠"积累的。

也许，当 Agent 真的学会了如何保证质量，如何建立信任，如何让每一次调用都可靠时。

它才真正开始拥有智能的幻觉。

甚至。

成为基础设施的资格。

对于 Agent Engineering 的未来，我个人更倾向于它会像 DevOps 一样成为基础设施的标准配置，但我也很好奇大家的看法。你认为 2026 年阻碍 Agent 落地的最大障碍是什么？是质量、成本，还是别的？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

Agent生态碎片化终结，.agents/skills统一所有工具

2026-01-29

自建一个 Agent 很难吗？一语道破，万语难明

2026-01-28

全球首个Skills Vibe Agents，AtomStorm技术揭秘：我是怎么用Context Engineering让Agent不"变傻"的

2026-01-22

Deepagents落地场景来了：用openwork实现专属办公小管家

2026-01-05

快速上手：LangChain + AgentRun 浏览器沙箱极简集成指南

2026-01-05

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

2025-12-29

单agent落幕，双agent才能解决复杂问题！附LangGraph+Milvus实操

2025-12-28

为什么说LangGraph是企业级AI智能体的「终极答案」？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

文档审核Agent2.0系统落地方案：LangChain1.1+MinerU

2025-12-21

LangChain、Dify、n8n、Coze框架对比

2025-12-21

2025-11-25

让AI智能体拥有像人类的持久记忆：基于LangGraph的长短期记忆管理实践指南

2025-12-08

LangChain 1.0 入门实战教学

2025-11-08

LangChain 1.0 变革

2025-11-18

LangGraph vs. Agno-AGI：新一代AI智能体框架的全方位深度解析

2025-11-07

被 LangChain 全家桶搞晕了？LangGraph、LangSmith、LangFlow 一文读懂

2025-11-25

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

2026-01-05

LangChain v1.0 模型选型：静态还是动态？一文看懂 Agent 的正确打开方式

2025-11-19

大家都在问

不再搞Chain 设计的LangChain 1.0，与LangGraph有哪些区别？

2025-11-03

为什么我们选择 LangGraph 作为智能体系统的技术底座？

2025-10-29

LangChain创始人：如何让AI智能体（Agent）跑得更快？

2025-07-14

“你问我答”，LangChain 是怎么帮 AI 变聪明的？

2025-07-13

一文看懂 LangChain：为什么火？核心模块都干啥？

2025-07-05

LangChain的OpenAI和ChatOpenAI，到底应该调用哪个？

2025-06-26

【LangChain 团队重磅实测报告】多智能体架构揭秘：谁才是性能之王？

2025-06-13

首个落地案例！WEBTOON 用 LangGraph 构建故事理解 Agent，创作者 AI 时代的范式来了？

2025-05-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean