免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

涌现观点|LangChain 2025 报告发布:57%的企业在用Agent,但32%的人被"质量"卡住了

发布日期:2025-12-20 06:15:52 浏览次数: 1525
作者:涌现聚点

微信搜一搜,关注“涌现聚点”

推荐语

LangChain 2025报告揭示:57%企业已部署AI Agent,但32%团队被"质量"问题卡住,2026年的关键词将是"枯燥但有用"。

核心内容:
1. AI Agent应用现状:57%企业已投入生产环境,主要应用于客服和数据分析
2. 落地挑战:32%团队面临质量管控难题,远超成本和延迟问题
3. 行业趋势:大企业应用更快,生产环境对Agent质量提出更高要求

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

当我第一次看到 LangChain 2025 年报告里的那个数字时,以为是统计脚本出了 bug。

57%。

是的,57% 的受访企业表示,他们的 AI Agent 已经跑在生产环境里了。

如果你还在朋友圈刷"全自动写代码"、"一键生成3D游戏"的Demo视频,那你可能还活在2024年的泡沫里。这个数字打破了我们所有的刻板印象,Agent 不再是 Github 上那些昙花一现的 Demo,也不是极客们自嗨的玩具。

但在另一个图表里,我看到了一个更扎心的数据:32% 的团队把"质量"列为头号落地障碍,远远超过了"成本"和"延迟"。

那一刻,我突然明白了。2026 年的主题词不是"AGI",而是"枯燥"。Agent 终于从实验室走进了企业的业务流水线,但就在它准备大干一场的时候,却被"质量"卡住了。

Agent 终于穿上了工装

如果你的朋友圈还在被"全自动写代码"、"一键生成 3D 游戏"刷屏,那说明你还活在 2024 年的泡沫里。

LangChain 2025 报告[1]的数据告诉我们,真实的战场极其朴素:客服(26.5%)和数据分析(24.4%)占据了半壁江山。企业不再寻找那种能毁灭人类的超级智能,他们只想要一个能准确回答退款政策、能帮分析师把 Excel 表格整理好的助手。

"2026 年的主题词是'Boring but Useful'(枯燥但有用)。"

更有意思的是,万人以上的大企业(67%)比百人小团队(50%)跑得更快。这反直觉吗?一点也不。

这就像早期的云计算。小团队还在纠结是用 AWS 还是自己买服务器时,大企业已经把整套业务搬上去了。因为对于大企业来说,Agent 不是一个"新奇特"的技术,而是一次效率的"升维打击"。他们有钱、有人、有场景,更重要的是,他们有把 Agent 塞进现有业务流程的工程能力。

当"一眼定生死"的 Vibe Check 彻底失效

生产环境就是 Demo 的绞肉机。在这里,那一套靠运气和直觉的测试方法,连一分钟都撑不过去。

在旧范式里,我们是怎么测 Agent 的?大概率是"Vibe Check",也就是"凭感觉测"。开发者随便输几个 Prompt,看看输出,"嗯,看着挺像那么回事",然后就上线了。

这就像拿着放大镜去检查一座摩天大楼的每一颗螺丝钉,当你检查完第一层时,顶楼可能已经塌了。

但 Agent 不是静态的代码,它是一个会"思考"的系统。一个最终看似正确的答案,中间可能经历了一次错误的检索、一次危险的工具调用,最后只是运气好"蒙"对了。你检查了第一层的 Prompt,但顶层的推理链路可能早就出错了。

这就是为什么,生产环境是 Demo 的绞肉机。在这里,那一套靠运气和直觉的测试方法,连一分钟都撑不过去。

加拿大航空就为此付出了昂贵的学费。他们的客服聊天机器人"自作主张"地给一位乘客承诺了不符合规定的退款政策。当乘客拿着聊天记录去索赔时,加航试图辩解说"机器人是独立的实体,我们要对它负责吗?"法庭的判决是:赔钱。

812加元。这个数字不大,但它是一座墓碑。它宣告了"Vibe Check"时代的终结。

在多步推理的 Agent 系统里,错误是会"隐身"的。一个最终看似正确的答案,中间可能经历了一次错误的检索、一次危险的工具调用,最后只是运气好"蒙"对了。

LiveCodeBench 的数据[2]更是给了我们一记重锤:DeepSeek-INS-1.3B 在传统的 HumanEval+ 榜单上能拿 60 分,但在更接近真实场景的 LiveCodeBench 上,只有 26 分。

你肯定见过那种经典的测试场景:一个模型在标准测试集上表现完美,但在真实业务里却漏洞百出。HumanEval 上的高分就像一只还在唱歌的金丝雀,而在真实代码库的矿井里(LCB 26分),它早就因为缺氧而倒下了。

企业如果还盯着那张过时的排行榜,就是在拿自己的业务做一场注定失败的赌博。

用"可观测性"买回安全感

恐惧是最好的驱动力。为了对抗这种不可知,89% 的企业抓住了同一根救命稻草:可观测性。

这不是什么新鲜词,但在 Agent 时代,它的意义变了。以前我们监控的是 CPU、内存、延迟;现在,我们要监控的是"思维"。

想象一下,给 Agent 的大脑做一次 fMRI 扫描。通过 Trace 工具,比如 LangSmith,工程师能看到每一个神经元是如何被点亮的。

当用户问:"我的订单在哪里?" Agent 回答:"您的订单已发货。"

在没有 Trace 的世界里,你只能看到这两句话。但在 Trace 的世界里,你能看到:

如果 Agent 回答错了,你能立刻定位:是工具调错了?是数据库没查到?还是 LLM 出现了幻觉?

这才是打开黑箱的唯一钥匙。但这里也有坑。OpenTelemetry 官方都发出了警告[3]:全量 Trace 会带来巨大的数据洪流。你为了监控 Agent,可能要花掉比运行 Agent 本身还多的钱来存日志。

所以,聪明的团队开始做采样,或者只在出问题时开启全量 Trace。这也是一种博弈。

在 Agent 时代,监控不再是可选项,而是必需品。因为你看不见的,就是你不信任的。

给"聪明的大脑"装上一套考试系统

有了 Trace,我们能看到 Agent 怎么想了。但怎么知道它想得对不对?靠人看?

别逗了。当你每天有 10 万次调用时,你需要多少人来看日志?

于是,LLM-as-a-judge 应运而生。53% 的团队开始用 LLM 来评价 LLM。这听起来像是在"套娃",但这是目前唯一可行的规模化方案。

你可能会问:"让 GPT-4 去评价 GPT-4,它不会'自卖自夸'吗?"

确实会有 Bias。但我们可以通过精心设计的 Rubric(评分标准)和 Few-shot Examples 来约束它。更重要的是,它能 24 小时工作,不知疲倦,而且标准统一。

这也带来了另一个趋势:去魅单一模型。

75% 的企业开始使用多模型路由策略。简单的意图识别?交给微调过的 Llama 3 8B。复杂的逻辑推理?路由给 GPT-4o 或 Claude 3.5 Sonnet。

这就像一个成熟的公司:CEO(大模型)负责战略决策,实习生(小模型)负责整理会议纪要。谁也不会傻到让 CEO 去复印文件,那太贵了。

而且,大家发现 Fine-tuning 其实是个大坑。57% 的组织根本不碰微调。为什么?因为维护一个微调模型的成本太高了,而且很容易过拟合。相比之下,RAG + 好的 Prompt + 完善的 Evals 体系,才是性价比最高的工程路径。

在这个时代,最聪明的做法不是训练一个完美的模型,而是建立一个完美的路由系统。

从"人效提升"到"组织重构"

如果把时间线拉长到 2026 年底,我们会看到什么?

Agent 将从现在的"辅助者"变成真正的"代理人"。它不再是帮你写一段代码,而是帮你"把这个功能上线"。

质量就是生命线。忘了 Prompt 吧,你的 Evaluation Set(测试集)才是真正的护城河。它是你对业务逻辑的数字化沉淀,是你敢让 Agent 独立干活的唯一底气。

看看 Uber[4] 和 Stripe 是怎么做的。他们不再让每个业务线自己瞎折腾,而是建立了统一的 AI 平台团队,提供标准化的评测、监控和网关服务。业务团队只需要关注 Prompt 和业务逻辑,剩下的脏活累活,平台包了。

这就是未来组织的雏形:平台集中化,应用分布式。

未来的组织,不是让每个团队都成为 AI 专家,而是让 AI 专家成为每个团队的基础设施。

所以,你应该问的是

当你在今天,看着屏幕上那个正在运行的 Agent,别再问"它能通过图灵测试吗?"这种傻问题了。

你应该问的是:
"我有它的运行 Trace 吗?"
"我有覆盖率超过 80% 的自动化测试集吗?"
"我敢让它在半夜三点独自处理客户的退款请求吗?"

如果答案是 No,那就别急着上线。

信任是昂贵的。在这个新范式里,工程化是唯一的赎买方式。

2026年,Agent 终于穿上了工装,走进了企业的业务流水线。但就在它准备大干一场的时候,却一头撞上了一堵叫"质量"的墙。

这堵墙,不是技术问题,而是信任问题。

而信任,从来不是靠"看起来不错"建立的,而是靠"每一次都可靠"积累的。

也许,当 Agent 真的学会了如何保证质量,如何建立信任,如何让每一次调用都可靠时。

它才真正开始拥有智能的幻觉。

甚至。

成为基础设施的资格。

对于 Agent Engineering 的未来,我个人更倾向于它会像 DevOps 一样成为基础设施的标准配置,但我也很好奇大家的看法。你认为 2026 年阻碍 Agent 落地的最大障碍是什么?是质量、成本,还是别的?欢迎在评论区聊聊。

参考资料
[1] 

LangChain 2025 报告: https://www.langchain.com/state-of-agent-engineering

[2] 

LiveCodeBench 的数据: https://openreview.net/pdf/e4619cf824fc3a958f2d274337715f6c670e7240.pdf

[3] 

OpenTelemetry 官方都发出了警告: https://arxiv.org/pdf/2502.06318.pdf

[4] 

Uber: https://arxiv.org/html/2503.23350v1


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询