免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

来自前Manus工程师的一线总结:构建一个有效的Agent需三种能力|AI 实践派

发布日期:2025-12-02 11:50:01 浏览次数: 1514
作者:AI闹

微信搜一搜,关注“AI闹”

推荐语

Agent架构师年薪200万美元?揭秘构建高效Agent的三大核心能力。

核心内容:
1. Agent架构师的市场价值与行业趋势
2. 开发Agent的常见认知误区与本质剖析
3. 构建有效Agent认知流程的三大方法论

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

文|许长鹏 
内容策划|张卓
出品|AI闹

Intro


这是AI闹的新栏目 AI 实践派(AI Practitioners)。我们持续关注在AI领域使用新认知、新范式解决真问题的AI builder。

过去半年,AI 行业有一个能力变得刚需而紧缺:Agent架构流程(Agentic Process Architect)。这个能力简单概括就是把大模型变成一个「能办事的员工」。

业内共识在发生变化:在模型增速放缓的当下,Agent 的架构将会越发重要。硅谷的一些大公司为一个初级Agent流程架构师开出的年薪达200万美元。

本文分享者许长鹏(CP @yan5xu)曾在Manus&Monica担任工程师,长期活跃在推特社区,一直自称为 AI 野生研究员。

他发现当大家在讨论如何架构一个 Agent 时常陷入两种误区:

第一是认为它无所不能,什么都能干;

第二是过度简化,认为它不过是把大模型多调用几次的产物。

「核心原因是大家对 Agentic 循环过程的体感缺乏理解。」许长鹏告诉 AI闹,「相当于大家直接看了答案,很多中间的思考跳过。」

源于他开发Agent的实践经验和离职后与许多团队密集交流的结果,他提出了一个重点观点:

构建一个有用的Agent,并非源于模型智力的飞跃,而是源于如何围绕模型设计一套行之有效的「认知流程」。

许长鹏认为,这个过程本质是在用更多的计算步骤和更长的思考时间去交换一个在真实世界「真有用」的结果,即以「时间换效果」,「我们不做可以一次就拿到结果的乐观假设,而是通过可信的过程,来确保结果的质量。」

他用了一个非常生动的比喻,大模型是一个天才少年,叫小明,让小明直接参加高考,他大概率不能获得一个好成绩。原因是他缺乏对学习—考试的基本认知。

所以必须有人指导他:

  • 写完要检查试卷,否则容易出错(基础API调用阶段);

  • 推理按部就班,否则避免跳步和漏洞(思维链CoT);

  • 要主动复盘答题过程,修正错误(自我反思);

  • 遇到老师没教过的难题,要学会规划时间,全盘考虑,哪些放弃哪些保住,调整策略取得高分

经历这一系列训练,小明才能拿到好成绩。

「小明如何一步步通过流程的设立,提高自己的成绩,在这个过程中,他的知识(智力)没有改变,但流程发生变化就能大幅提升最终成绩(效果)。」许长鹏说。以下是他的分享,我们在原文基础做了重新编辑,经过了他的校正,本文的重点围绕「如何为Agent建立一个有效的认知流程」



三个方法:为Agent装上「心脏」


许长鹏认为,很多人初次接触Agent会产生一种困惑:怎么这么慢,这么笨,查个东西来来回回好几轮,远不如直接问ChatGPT一秒出答案。

但是这种「慢」恰恰是揭示了一个深刻的转变:

Agent的流程架构正在从追求大语言模型(LLM)那种一次性的、直觉式的快思考,转向设计一种结构化的、可验证的慢思考。

这套「慢思考」的核心,就是我们为AI设计的流程。

  • 许长鹏推荐书籍

LLM 原生的思考方式是「发散的」、「扁平的」。在面对一个真实、复杂的任务时,它的长链条推理非常脆弱,很容易在中间某个环节「跑偏」,或者干脆「忘记」最初的目标。

而设计流程,即规划(Planning)、思维链(CoT)、甚至更复杂的树状思维(Tree of Thoughts)其本质是在为AI混乱的思考过程,强行建立一套「逻辑脚手架」。

「规划」将宏大到无法一次性思考的目标,比如建一栋摩天大楼分解为一系列清晰、有序、可执行的步骤,如第一步:打地基;第二步:建主体;第三步:封顶,它确保AI每一步行动都服务于最终目标。

「思维链」保证每一步的内部逻辑是严谨的,有点像《内部施工手册》,比如钢筋要这么绑,混凝土必须是C50标号,强制 AI 的推理过程必须环环相扣。

这套「逻辑脚手架」极大地提升了AI 解决复杂问题的能力上限。

第二个办法是为解决LLM有限的注意力。

设计反思(Reflection)、总结(Summarization)等流程,本质上是在为AI的记忆打造一套「高效的压缩算法」。

举一个旅行规划的案例,当Agent用browser-use 的方式访问完整后发现「故宫门票售罄」时,Reflexion流程被触发,但是 Agent不会把官网返回的所有HTML代码、弹窗提示等冗长的、原始的信息,全都塞进自己本就宝贵的「记忆」。

如果是那样,它的上下文窗口很快就会被无用的信息撑爆。相反,它启动了一次 「记忆压缩」,将这次失败的交互过程,提炼成了一句高信息密度的结论,并将其作为一条「经验」存入记忆:故宫门票需提前一周预订,本周不可行。

这个过程是一次「有损但极其有效」的压缩。它丢弃了99%的无关细节,来实现用极小的上下文空间,保留了对未来决策100%关键的信息。

这套「压缩算法」让AI拥有了「长期记忆」,而且是动态的,使其在有限的注意力范围内,处理更长的时间线,完成更复杂的任务。

第三个办法是设计「工具」让模型连接现实世界。

一个流程无论设计得多么精妙,如果它与现实世界完全隔离,那就只是空中楼阁。因此,流程必须拥有与世界交互的能力,于是工具(Tool)这个概念出现了。

工具不是一个与流程并列的概念,它更像是流程的「神经触手」。

ReAct框架是一个将思考与行动(调用工具)深度绑定的框架。在这个框架的驱动下,AI在思考过程中如果意识到「我的内部知识不足以支撑下一步决策」,就会主动伸出「search_api」去链接互联网,把动态的客观事实传回大脑,再继续思考。

也因此架构Agent的首要职责是设计模型的思考结构、记忆机制和与世界交互的范式,它通过两大核心机制来对抗模型的遗忘和混乱。

1、高效的信息压缩

如Reflexion流程,它不会把冗长的失败日志直接塞入记忆,而是将其提炼成一句高信息密度的经验教训。这是一种有损但高效的压缩,用极低的Token成本保留了最关键的决策信息。

2.、精准的选择性注入

流程在每一个Think环节之前,会像一位顶级外科手术的器械护士,精准地判断此时此刻我们最需要哪一条历史经验?最需要哪一个工具,然后将这些信息组合成一个干净、高效的上下文,递给LLM进行处理。


两个底层认知:信息论和方法论


这里要回溯两条重要理论:

为什么为Agent设计从思考 -> 行动 -> 观察 这个循环,从根本上就是有效的。

这里需要跳出AI范式,理解「控制论」和「信息论」。

先说控制论,控制论可以体现 Agent 是如何一步步「逼近」解决方案的过程。

控制论有两个系统,开环系统与闭环系统 。

一个典型的开环系统,就像那种定时器的老式暖气。设定它运行一小时,期望它能让房间变得温暖,但它没有感知「当前室温」的能力。也因此,如果今天恰好有太阳,一小时后房间会很闷热,其根本缺陷是 「缺乏反馈」。这正是标准Chatbot的工作模式,接收指令并一次性生成结果,不去验证这个结果是否真正解决问题。

一个经典的闭环系统冰箱为例,冰箱的核心任务是「维持冷藏室恒定在5°C」。

1、目标 :用户设定的“5°C”。

2、传感器 :内部的温度计,持续观察当前的实际温度。

3、控制器 :温控芯片,思考 「当前温度和目标温度之间是否存在偏差?」

4.、执行器 :压缩机。一旦控制器发现偏差(比如温度上升到6°C)就会命令压缩机行动  5.、反馈闭环 :压缩机工作导致温度下降,传感器将新温度反馈给控制器,控制器发现偏差消失(回到5°C),于是命令执行器停止。

我们可以清晰地看到,Agent逼近目标的步骤是和冰箱的内部运作系统是一一对应的。

1、目标 :用户的指令

2、传感器 :观察环节,获取工具返回的结果

3、控制器 :思考环节,LLM进行推理和规划

4、执行器 :行动环节,调用工具

5、反馈闭环 :将观察的结果作为输入传给下一轮思考

「信息论」则揭示了Agent在探索复杂而未知的问题时,究竟要「做什么?」

信息论将「熵」定义为对不确定性的度量。系统的信息量越大,不确定性就越小,熵值也就越低。

解决问题的过程本质都可以视为一个「通过获取有效信息,降低熵减」的过程。

Agent面对复杂工作正是在一个抽象的问题空间中进行一场「熵减」行动。它的每一次 行动-观察的循环,都是一次科学实验,目的就是为了获取更多不确定性的信息,当「不确定」被完全消除,通往答案的唯一路径也就清晰浮现。

综上,控制论为Agent提供了目标的纠错能力。信息论定义则是 Agent探索未知空间的核心理论。

这两个理论是我们必须理解Agent运行所依据的科学理论。


三个突破:让Agent性能提升


自此我们明确了架构一个有效的Agent 的核心工作包括:

1、 设计AI的思考流程

定义AI如何进行规划、拆解、推理与反思。你设计的不是一个提示词,而是AI的「心智内核」与「行事准则」。

2、 赋能AI的行动工具

为AI锻造与物理世界和数字世界交互的双手双脚。敏锐识别流程中的信息瓶颈,并创造或接入合适的工具,让AI的能力边界得以延伸。

3、 构建AI的决策上下文

不是上下文的搬运工,而是通过精妙的流程设计,确保在每一个决策瞬间,AI的注意力恰好聚焦在最有价值的信息上。

但现在这套强大的「慢思考」在提升结果质量的同时,也带来了一个全新的工程挑战:执行效率。

如何让Agent在追求高质量的同时也能拥有高性能?一线的工程实践正从以下几个关键层面寻求突破。

1、架构选型与剪枝

并非所有任务都需要复杂的 ReAct 循环。通过实践发现能通过一两步直接解决问题的场景,使用LLM内置的工具调用 范式会更高效。 可以降低token消耗和端到端延迟。

2、并行化执行

当Agent的规划结果包含多个「没有依赖关系的子任务」时(例如,查询北京的天气和搜索热门商铺),现代Agent框架如LangChain已经能支持并行工具的调用 ,可以利用异步I/O 的能力,将原本需要串行等待的多个API请求并发出去,从而将总耗时从「所有任务耗时之和」缩短为「最长任务的耗时」,这是最显著提升执行效率的方法。

3、模型特化与路由

单一模型策略正在被淘汰,更优的实践是采用混合模型策略。

例如使用一个轻量、高速的模型(如gemini-2.5-flash, claude-haiku-4.5)承担流程中「规划」、路由或简单工具选择等高频、低复杂度的任务,遇到需要深度推理的复杂节点时,才调用重量级、高成本的核心模型(如gpt-5-pro, gemini-2.5-pro)。分层策略能以更低的成本和延迟,完成大部分流程步骤。

4、高效的记忆架构

LLM有限的上下文窗口决定了我们不可能将所有历史信息塞入提示。因此,设计一个高效的 「记忆检索」机制至关重要。这不仅仅是技术选型(如使用向量数据库),更是策略设计。如何将对话历史、过往的行动轨迹、成功的经验与失败的教训进行压缩、提炼并结构化存储。


—写在结尾—

当我们为Agent装上「心脏」和「加速器」之后,未来最大的挑战就是为模型「构建大脑」。

当前业界最前沿的探索也正聚焦于以下几个方向:

1、 认知调度中心:智能工作流编排

一个成熟的 Agent应当像一位经验丰富的项目经理,面对不同的任务,能自主规划并编排最优的执行流程。这正是「动态流程编排」的核心思想。

Anthropic 最新发布的 Skills功能是这一思想的最佳实践,这代表着 Agent 的思考环节已从「下一步做什么」的战术决策,进化为「如何分步达成最终目标」的战略规划。

2、 规约驱动的分层架构:从单兵到团队

对于复杂任务,分层与分治是必然选择。其关键在于如何多个 Agent高效、可靠地协作。答案是由规约驱动(Spec-Driven)。

一个「规划Agent」首要任务是生成一份详尽、明确的技术规约 ,如同工程蓝图,成为所有下游「执行Agent」工作的唯一契约。这正是以 GitHub 开源的 SpecKit等为代表的前沿项目所探索的核心思想,它标志着 Agent 协同正在进化为可追溯、可验证的「现代软件工程」。

Ps:这部分可延展阅读我们之前报道的多智能体协作前AWS科学家让 Agent 学会彼此合作、竞争甚至争吵|和OpenAgents创始人 Raphael Shu 聊群体智能

3、即时代码生成 :从「使用工具」到「创造工具」

传统工具使用是让 Agent 在固定的工具箱里做选择题。未来的方向是让 Agent 自己创造工具。Code Act (CodeAct: A Multi-Turn Code Agent with In-Context Learning) 等研究正在引领这一趋势。

当面对没有现成工具可用时,Agent 会动态地生成一段 Python 代码(一个微型工具),在隔离环境中执行并根据执行结果推进任务。这让 Act 环节从「调用API」进化为具备无限可能的「代码生成与执行」, Agent的能力边界会得到无限的提升。

这些最前沿的探索才是未来架构一个「Agent 」最激动人心的工作。


参考与延伸阅读

Part 1: 核心学术论文

1、思维链 (Chain of Thought, CoT)
标题: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
链接: https://arxiv.org/abs/2201.11903
简介: 首次系统性地证明,通过在提示中加入「思考过程」的范例,可以激发大语言模型解决复杂推理任务的能力,是结构化提示的奠基性工作。
2、思维树 (Tree of Thoughts, ToT)
标题: Tree of Thoughts: Deliberate Problem Solving with Large Language Models
链接: https://arxiv.org/abs/2305.10601
简介: 将线性的思维链扩展为树状的多路径探索。它允许 Agent 在一个思考节点上探索多个不同的推理路径,并使用自我评估来决定最优解,是更强大的结构化思考流程。
3、Reflexion 框架
标题: Reflexion: Language Agents with Verbal Reinforcement Learning
链接: https://arxiv.org/abs/2303.11366
简介: 首次将「自我反思/复盘」这一概念框架化、自动化。它证明了 Agent 可以通过对过往失败进行「语言反思」来迭代优化自身行为,而无需重新训练模型。
4、ReAct 框架
标题: ReAct: Synergizing Reasoning and Acting in Language Models
链接: https://arxiv.org/abs/2210.03629
简介: 提出了里程碑式的 Thought -> Act -> Observe 框架,将「思考」(Reasoning)和「行动」(Acting)深度交织,是现代 Agent 框架与外部世界交互的理论基石。
5、CodeAct 框架
标题: CodeAct: A Multi-Turn Code Agent with In-Context Learning
链接: https://arxiv.org/abs/2402.01030
简介: 雄辩地证明了 Agent 的 Act 环节可以从「调用预定义工具」进化到「即时生成代码并执行」,极大地扩展了 Agent 的能力边界。

Part 2: 行业资料与实践资源

1、奠基性的综述:Lilian Weng的《LLM-powered Autonomous Agents》
链接: https://lilianweng.github.io/posts/2023-06-23-agent/
简介: OpenAI 应用研究负责人撰写的、行业内引用最广泛的 Agent 综述文章,是建立该领域全局认知地图的第一站。
2、核心思想:LLM操作系统 by Andrej Karpathy
简介: Andrej Karpathy (OpenAI创始成员) 在多个演讲中极具前瞻性地提出,LLM 是新型计算范式的「CPU」,而 Agent 框架则扮演了「操作系统」的角色。
3、主流开发框架:LangChain & LlamaIndex
链接: https://python.langchain.com/ 和 https://www.llamaindex.ai/
简介: 当下构建 Agent 应用的两大事实标准库。LangChain 侧重于流程(Chain & Agent),LlamaIndex 侧重于数据(RAG),是开发者将理论付诸实践的首选工具。

4、前沿架构探索:规约驱动的协同 (Specification-Driven Collaboration)

简介: 解决多 Agent 协作的核心,在于建立一套机器可读的「契约」或「规约」。这一方向的代表性项目包括 AI IDE Kiro (https://kiro.tech/) 和开源工具包 Spec Kit (https://github.com/braid-work/spec-kit)。
5、复杂工具的智能编排
简介: 强大的 Agent 应能为达成一个复杂目标,自主地、多步骤地规划并调用一系列工具。Anthropic 的 Skills功能 (https://www.anthropic.com/news/skills) 将 Agent 的工具使用能力从「单次调用」提升到了「智能编排」,是这一方向的最佳行业实践。
6、社会行为涌现:斯坦福的「西部世界小镇」
论文: Generative Agents: Interactive Simulacra of Human Behavior (https://arxiv.org/abs/2304.03442)
简介一项现象级的 AI 实验,展示了当 Agent 拥有了记忆和反思能力后,在一个虚拟社会中能够涌现出多么可信的自发行为,是多 Agent 系统探索的绝佳延伸阅读。


图片来源|unsplash

制图|Youmind


—征集—

如果你也是在一线摸索AI 产品的 builder,欢迎把你的实践告诉我们

联系见下方「微信卡片」


推荐阅读


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询