支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LangChain创始人:如何让AI智能体(Agent)跑得更快?

发布日期:2025-07-14 09:02:45 浏览次数: 1541
作者:雨杨网志

微信搜一搜,关注“雨杨网志”

推荐语

LangChain创始人揭秘AI智能体提速秘诀,开发者必读的实战指南。

核心内容:
1. 诊断性能瓶颈:利用LangSmith工具精准定位智能体延迟问题
2. 用户体验优化:通过流式输出和后台运行降低用户感知延迟
3. 混合架构设计:结合传统代码与大模型调用提升整体效率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

LangChain 创始人Harrison Chase 在LangChain 博客上发表了一系列文章,名为“循环之中”(In the Loop),非常值得智能体开发者阅读。

这一篇,聊聊如何给AI智能体提速。


我经常被问到这个问题。开发者们通常先把重心放在让智能体跑起来,能用就行。可一旦能跑通了,他们就开始琢磨怎么能让它更快、更省钱。根据我们的观察,开发者们主要会从这几个方面下手:

  • 找到底是哪里慢
  • 优化用户体验,让用户“感觉”不到慢
  • 减少调用大模型的次数
  • 加快大模型的调用速度
  • 并行调用大模型

找到底是哪里慢

这听起来可能有点基础,但你怎么去解决延迟问题,完全取决于你的性能瓶颈在哪。延迟是来自一次又长又大的大模型调用,还是由好几次小的调用累加造成的?在动手优化之前,你得先把问题诊断清楚。

在这方面,LangSmith 是个非常好用的工具。它能让你对智能体的每一次交互都看得一清二楚。你可以追踪智能体每一步的延迟,而且我们最近还推出了一个“瀑布流”视图,让你能轻松地一眼看出哪些步骤是拖慢整体速度的罪魁祸首。

优化用户体验,让用户“感觉”不到慢

有时候,降低延迟最简单的方法……就是不去降低延迟。

这话听起来可能有点反直觉,但我们仔细想想,为什么延迟这么重要?说到底,还不是因为我们担心智能体运行太慢,用户会不耐烦,不想用了。这个问题,很多时候通过优化用户体验(UX)就能解决。我们观察到大家主要有两种做法。

  • 流式返回结果。
     对于大多数大模型应用来说,流式输出已经很普遍了。但如果你还没用上,那你真的应该用起来。它能告诉用户,大模型正在工作中,这样他们就不会轻易关掉页面了。除了流式输出最终的回复内容,你还可以把中间过程也流式地展示出来。比如,智能体正在执行的计划步骤、检索到的结果,甚至是它“思考”的过程。Perplexity 的搜索界面在这方面就做得非常出色。他们发现,通过在界面上展示这些中间步骤,尽管总的完成时间没变,但用户的满意度却提升了。
  • 让智能体在后台运行
    。让智能体在你看不到的地方跑。就拿我的邮件助手来说,我根本不知道它处理一封邮件要花多长时间。因为它是由一个事件(收到新邮件)触发的,只有当它卡住的时候,我才会收到通知。我把所有的延迟都对用户隐藏了,智能体只是在后台默默地干活。

减少调用大模型的次数

不是什么事都非得让大模型来干。如果能用其他方式(比如写代码)解决,那就太棒了!我们看到大家现在构建的智能体,都是大模型调用和传统代码的结合体。这种代码与大模型混合的模式,正是 LangGraph 的核心指导思想之一,也是为什么像 Replit、优步(Uber)、领英(LinkedIn)和 Klarna 这些公司都在拥抱它的一个核心原因。

我们观察到一个常见的技术演进路径是:“单次大模型调用” → “ReAct 智能体” → “多智能体” → “LangGraph”。

一开始,大家都是从单次调用大模型开始的。然后他们会遇到一些局限,于是升级到用智能体。智能体用起来还行,但当他们想给智能体更多工具时,就发现单个智能体能支持的工具数量是有限的。于是,他们又转向了“多智能体”架构,比如用一个主管(supervisor)或者蜂群(swarm)架构来协调。

但这种架构的问题在于,它们会产生大量的大模型调用。不同智能体之间的沟通效率并不高。这其实是设计使然——因为它们是通用架构,所以并没有针对你的具体应用场景进行优化。

这时候,我们看到大家就开始求助于 LangGraph 了。LangGraph 是一个底层工具,它能让你精确地指定这些智能体应该如何相互通信(或者什么时候只是一次普通的大模型调用)。这样做通常能显著减少大模型的调用次数,让智能体变得更快、更便宜(而且往往也更可靠)。

加快大模型的调用速度

我们通常看到开发者通过两种方式来加快大模型的调用速度。

用更快的模型。有些模型天生就比其他模型快。比如谷歌(Google)提供了速度飞快的 Gemini Flash。OpenAI 和 Anthropic 也有更小、更快的模型。像 Groq 和 Fireworks 这样的开源模型托管平台,也在不断地努力让最优秀的开源模型跑得越来越快。注意:这通常需要你做出权衡,因为你可能会用上一个效果更差的模型——这些更快的模型通常体积更小,因此准确性也更低。

减少上下文长度。大模型响应的时间和输入内容的长度是成正比的。所以要想让它快点出结果,你就得给它少点输入内容!这就是为什么你需要对每次大模型调用到底输入了什么有完全的控制和清晰的了解。那些把这部分逻辑搞得云里雾里(或者不让你轻松控制)的框架都不好用——这也是为什么 LangGraph 没有任何隐藏的提示词,让你拥有完全的控制权。如果你想更好地看清楚到底是什么内容被输入给了大模型,那就去试试 LangSmith 吧。

并行调用大模型

这个方法不一定适用于所有场景,但如果你的场景能用,那你一定要用。LangGraph 原生就支持并行处理。你可以考虑在这些地方使用并行调用:

  • 同时进行安全护栏检查和内容生成
  • 同时从多个文档中提取信息
  • 同时调用多个模型,然后将它们的输出结果结合起来

总结

说到底,给你的 AI 智能体提速,本质上就是在性能、成本和功能之间做个策略上的权衡。第一步,先搞清楚你自己的性能瓶颈到底在哪,然后根据你的具体应用场景,有选择地运用我们上面提到的这些技巧。而且,有时候最有效的方法根本不是技术层面的,而是重新思考一下用户与你的智能体互动时的体验。

当你在尝试这些新策略时,我们很想听听你的想法——哪些技巧在为你的智能体提速方面效果最好?

雨杨先生编译自:

How do I speed up my AI agent?

In the Loop

Mar 15, 2025

https://blog.langchain.dev/how-do-i-speed-up-my-agent/
#智能体 #Agent #LangChain #LangGraph

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询