微信扫码
添加专属顾问
我要投稿
AI智能体如何从混沌走向成熟?本文带你回溯技术演进的关键节点,揭示智能体自主决策的底层逻辑。 核心内容: 1. 智能体从被动响应到主动决策的技术跃迁 2. Transformer架构突破与ReAct等创新框架解析 3. 2025年DeepSeek与Manus两大突破性成果的技术溯源
2025年,DeepSeek和Manus先后横空出世,终于使自然语言处理、大语言模型、AI智能体等概念真正取信于人、深入人心,而不再沦为用于股价估值的“板块概念”。但正如人类文明在迈入汉唐盛世前曾历经北京猿人、三皇五帝的漫长积淀,本文将回溯这两个颠覆性成果诞生前,智能体领域混沌未开的“史前时代”。
为方便接下来的阅读,首先借用Anthropic的定义与示例对AI智能体(AI Agent)进行简要介绍。
图1 智能体工作原理
尽管其设计初衷是应对复杂任务,智能体的核心运作机制(图1)却异常简洁:一个大语言模型通过持续交互从环境(可视为工具箱)中循环选择并调用工具。随着大模型在理解复杂输入、进行推理规划、准确使用工具、纠正自身错误等关键能力方面日益成熟,智能体成为解决难以测算所需步骤数量、且无法预设固定解决路径的复杂动态问题的重要手段。
图2 示例:编程智能体
以图2的编程智能体为例,智能体通常以用户指令或交互式对话为起点开始工作。一旦任务目标明确,它便会自主进行规划和执行,必要时会返回至用户处获取更多信息或判断。在执行过程中,智能体每一步都需要从环境中获取“真实信息”(即调用工具的结果或反馈)以评估任务的进展。当遇到关键节点或障碍时,智能体可以暂停并等待用户反馈。
由于大模型本身的架构并非智能体开发所关注的重点,本章的介绍将聚焦模型的直观意义,而不涉及其内部的技术细节,故为“残血版”。
但是,直接以语句为单位的估算存在显著局限性:在语义相近但表征有差异的情况下(如“有时很天真”与“有时候很天真”),词形的变化将导致统计频率失真。为突破这一粒度瓶颈,语言建模采用链式法则将联合概率分解为以token为单位的条件概率的乘积:
这种自回归(autoregressive)建模方式(又称因果建模)构成了语言模型的基础。在生成过程中,模型通过迭代机制构建输出序列:每一步基于当前上下文预测接下来最可能出现的token(或通过采样等策略随机选取,以引入多样性等;具体取决于采用的解码算法),将其追加至输入末尾形成新的上下文状态,循环往复直至生成结束符<EOS>
或满足预设的终止条件。
这种逐字的生成机制不仅支撑了对话生成、文本补全等自然语言处理(NLP)任务,更可拓展到其他领域。例如,通过将蛋白质序列、分子结构等复杂数据编码为可处理的文本序列,语言模型得以在跨模态任务中展现其强大的泛化能力。
图3 大模型进化树(截至2023年)
现代NLP以Vaswani等人的一句“Attention is all you need”为嚆矢——2017年,谷歌的Ashish Vaswani等8位作者提出了Transformer架构。毫无疑问,这是NLP领域的一个重大转折,因为Transformer至今仍是各主流模型架构的基础,且尚未有旗鼓相当的挑战者出现。
图4 Encoder-Decoder架构
Transformer有三种主要形式(即大模型进化树上三个分支):
Encoder-Decoder:最初的Transformer架构,由编码器(Encoder)和解码器(Decoder)两部分组成,专为序列到序列(Seq2seq)任务设计。编码器通过自注意力机制将输入序列转化为包含全局语义的隐藏表示(hidden state),而解码器则利用交叉注意力机制关注编码器的输出,并结合自注意力机制逐步生成目标序列。这种结构的优势在于能够同时建模输入和输出的上下文关系,但缺点是包含显式的编码和解码阶段,增加了计算复杂度。典型应用包括机器翻译(如Google的Transformer)和文本摘要(如T5)。
Encoder-Only:仅有编码器,专注于对输入序列的深度理解,适用于需要全面捕捉上下文的任务。例如,在文本分类或命名实体识别中,编码器通过双向自注意力机制同时关注输入序列的左右上下文,从而生成更精准的语义表示。由于没有解码器,模型直接通过全连接层输出结果(如分类标签)。这种架构的典型代表是BERT及其变体,它们通过预训练学习通用语言特征,并在微调阶段快速适应下游任务。然而,由于缺乏生成序列的能力,这类模型不适用于生成式任务。
Decoder-Only:仅有解码器,专注于自回归生成任务。其核心机制是自注意力(Self-Attention)和因果掩码(Causal Masking):自注意力允许模型关注已生成的序列内容,而因果掩码确保生成过程中每个位置只能依赖自身及之前的输入,避免“未来信息”泄露。尽管没有显式的编码器,模型可通过自注意力隐式理解输入上下文,但输入长度受限于生成窗口。这种架构的局限在于无法直接处理双向理解任务。DeepSeek、Qwen、GPT等生成式模型即采用了这一架构。
在今日看来,总部位于旧金山的OpenAI似已光环不再,但其在decoder-only模型领域的开创性贡献仍不应忽视:从上一节中的大模型进化树中可见,2021年之前仅有OpenAI专注于探索该领域的模型架构。GPT全称Generative Pre-trained Transformer(生成式预训练转换器);作为GPT系列模型的缔造者,OpenAI通过这一框架奠定了生成式模型的技术范式。由于OpenAI在InstructGPT后至gpt-oss前不再公布技术细节,故在此仅回顾其早期模型的主要理论贡献:
图5 GPT的早期进化史
GPT:首次验证了基于Transformer解码器的“生成式预训练(无监督)+判别式微调(有监督)”范式。
GPT-2:通过15亿参数规模和无监督式零样本(zero-shot)学习能力,展示了语言模型在未微调任务上的泛化潜力。
GPT-3:以1750亿的参数规模和从少样本(few-shot)提示词中学习的能力,实现了无微调情况下跨领域文本生成能力的突破。
InstructGPT:基于GPT-3,通过人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),显著提升了模型生成内容的指令对齐性和实用性。在此之上,ChatGPT以更强大的GPT-3.5为基础,进一步优化模型多轮对话的连贯性与自然交互能力。
早在GPT-3时代,人们就意识到,大模型存在的意义远不止于对语言建模。强大的计算能力,使它实际上是以文字为媒介,对训练语料所属的知识空间进行建模。但尽管拥有巨大的潜能,大模型在数值计算、信息检索等类型的任务上的表现却传为笑谈;而导致这一现象的原因,至今仍是大模型的“阿喀琉斯之踵”:
图6 大模型回答中的常见错误
模型无法访问实时信息;
模型无法访问专有信息源;
上述两个问题的成因源于大模型的内在缺陷:模型主要基于公开的语料训练;完成训练后,在推理阶段中模型内部的参数固定,并不会随外部环境的变化而更新。
复杂逻辑推理的能力不足:模型训练过程并不涉及对各类逻辑规则的显式学习;此外,从语料中学习到的“最可能”的答案并不一定是事实上最正确的答案。
灾难性遗忘(Catastrophic Forgetting):对于针对某一组特定任务而训练的模型,如果用新的任务对其进行微调,则模型会“遗忘”先前的知识,导致在旧任务上的表现明显变差。这一现象的存在,使得我们难以通过多次的增量训练来持续赋予模型新的能力。
那么,如何能够有效地克服大模型的这些不足,使其更好成为未来AI系统的主心骨?为此,AI21的团队于2022年提出了模块化推理、知识和语言(Modular Reasoning, Knowledge and Language - MRKL, 读作miracle)系统。
图7 MRKL系统架构
MRKL系统由两个部分组成:
“专家”模块,各自专注于特定的任务(即智能体中的工具),为整个系统提供相应领域的能力支持,例如计算器、搜索引擎、企业内部知识库、专用小模型等;模块可按需增减。
通用大模型,充当“路由器”,在每一轮中对输入进行分析,转发至对应的专家进行处理,并对返回结果进行整合;如判断无合适的专家,则由模型自行处理该输入;处理完毕产生的输出可直接作为整个任务的执行结果,或作为下一轮的输入,再由其他专家继续处理。
MRKL系统的工作方式已然十分接近于如今的AI智能体。简而言之,MRKL使大模型聚焦其更为擅长的任务分解、信息整合等能力,而模型“干不了、干不好”的任务,则交由“外部专家”办理。从横向看,在给定同一组模块的情况下,系统的表现取决于所选的大模型对任务的理解能力。从纵向看,该系统不与特定的模型进行绑定,任意模型均可利用这一框架来提升任务表现;因此,MRKL可看作与模型无关(model-agnostic)的方法。
在AI发展的浪潮之中,有不止一位来自清华的Yao Shunyu投身于大模型事业。本章将介绍的ReAct与思维树两项成果属于普林斯顿计算机博士、现任职于OpenAI的姚顺雨(图8中第一位)。
图8 谷歌学术搜索结果中排名前二的“Yao Shunyu”
提示词工程(Prompt Engineering)所做的,就是以直观的方式引导模型去领悟如何更准确地完成任务。其通过结构化指令、引导示例、上下文管理等方式优化输入提示词,使模型能够更好地理解人类需求,降低生成歧义或错误内容的概率。其中,少样本提示与思维链都是十分具有代表性的提示词工程方法。
少样本提示(Few-Shot Prompting)通过提供少量输入-输出示例来引导模型快速学习新的任务模式、理解输入与输出的对应关系。该方法尤其适用于资源受限或需快速部署的场景,但对复杂任务效果有限。
思维链(Chain-of-Thought, CoT)引导模型像人类一样将问题拆解为多个步骤,逐步推理并输出思考过程。通过显式展示中间逻辑,CoT显著提升了模型在推理任务上的准确性,同时增强了模型的可解释性,便于用户验证和调试。
以下是一个单样本提示思维链(One-Shot CoT)的例子:
模型输入
问: 罗杰有5个网球。他又买了2盒网球,每盒有3个。现在他一共有多少个网球?
答: 罗杰一开始有5个网球。2盒,每盒3个,共6个网球。5 + 6 = 11。答案是11。
问: 餐厅原来有23个苹果,做午餐用了20个,又买了6个,现在有多少个苹果?
模型输出
答: 餐厅原来有23个苹果,做午餐用了20个,所以剩下23 - 20 = 3个。又买了6个,所以现在有3 + 6 = 9个。答案是9。
在此之上,ReAct与思维树则是更高级的提示词工程方法。这两种方法均以CoT为基础,通过对结构化推理链的扩展与优化,解决模型推理过程中逻辑深度不足或路径单一的问题,为大模型在复杂任务中的落地应用提供了更强大的框架支持。
CoT有一个明显的局限性:它依赖于模型内部的知识表示。由于模型知识在推理过程中保持静态,并且这些知识与现实世界脱节,因此,CoT无法动态调整执行计划或响应外部环境变化,从而限制了其在复杂、不确定场景中的实用性,并可能导致如幻觉(hallucination)生成和错误传播等潜在问题。
ReAct(Reason+Act)框架正是为克服上述缺陷而提出,它重新定义了推理与行动的关系,强调两者的共生协同。ReAct的核心思想源于对人类智能的观察——完成任务的过程通常包含两个紧密交织的阶段:
推理:人类通过自然语言分析当前状态,监控进度,识别异常,并动态调整计划,同时判断是否需要外部信息。
行动:执行具体操作,并用获得的观察结果进一步支持后续推理的修正与优化。
这种推理-行动的循环互动使人类能够在不确定环境中快速学习并做出稳健决策。相比之下,传统AI方法往往将推理与行动割裂,导致模型难以应对动态变化的挑战。受人类思维过程的启发,ReAct 通过交替执行以下两个步骤来突破传统方法的局限:
推理以行动(Reason to Act):模型基于语言推理生成并维护一个动态的高层次计划,该计划可根据新信息灵活调整。
行动以推理(Act to Reason):模型通过与外部环境交互,获取实时信息以补充推理依据。
图9 ReAct在Hotspot QA和AlfWorld测试集上的表现
图9展示了不同提示词方法在Hotspot QA和AlfWorld测试集上的表现。ReAct提示词的结构为“思考-行动-观察”的循环,即模型先通过推理规划下一步行动(如搜索“Apple Remote”),再执行具体操作(如调用搜索工具),最后根据观察结果(如“Front Row是停产软件”)动态调整策略,直至达成目标。相比之下,在Hotspot QA的示例中,标准的问答模式仅直接输出错误答案(iPod);CoT模式(仅推理)因缺乏对推理结论的实际验证,最后仍得到错误的答案(iPhone/iPad);Act-Only(仅行动)模式则缺乏对观察结果的筛选甄别。通过结构化推理与行动的协同验证,ReAct既避免了推理偏差(如CoT的错误假设),又克服了行动的随机性和盲目性(如Act-Only的低效重复尝试)。
ReAct 的设计优势在于其灵活性与泛化能力。通过少量上下文示例(包含人类引导的行动轨迹、思考过程和观察结果),ReAct 能够适应多样化的任务类型和格式。其性能验证表明,即使在未见过的新任务中,仅需数个示例即可实现有效学习。此外,ReAct 框架兼具可解释性和可控性:从直观的提示设计(分别列明思考、行动、观察)到支持手动修正的决策过程,均体现了对类人智能建模的探索。
ReAct与MRKL的执行逻辑存在显著相似性,但ReAct的推理轨迹因任务而异,其提示词模版需按任务环境来定制;MRKL系统中统一的推理轨迹和接口设计,不仅简化了提示工程,还为集成可扩展的工具集奠定了基础——ReAct在LangChain中的实现即吸纳了MRKL的标准化和通用性思想。这种从任务定制到标准化、从单一模块到可扩展系统的演进路径,也为未来AI智能体的通用化与高效化指明了发展方向。
思维树(Tree of Thoughts, ToT)从另一个角度对CoT进行改造。CoT局限于在单一路径上线性推理,因此难以应对复杂任务中的多解性或错误修正需求。而通过构建树状结构,ToT使得模型能够在每一步生成多个候选思路(分支),并通过评估和搜索算法动态选择最优路径,甚至在必要时回溯修正错误。这种机制使模型能够突破单一推理方向的限制,从而更接近人类解决问题时探索多种解决方案的思维模式,在复杂任务中表现出更强的适应性。
图10 思维树的执行过程示意,以及与CoT等方法的对比
ToT的算法执行过程包含四个核心环节:
问题分解:将复杂任务拆分为多个中间步骤,每个步骤对应树的一个层次。
思想生成:在当前状态下生成多个候选解,形成树状分支。
状态评估:对候选解进行评估,以选择应优先探索的路径。可采用的评估方法有两种:一是预设评分机制,二是“投票”,即让模型多次挑选同一组候选中的最优解,算法下一步探索获得票数最多的思路。
搜索算法(如广度优先搜索或深度优先搜索):遍历树结构,结合评估结果选择最优路径,逐步逼近正确答案。
图11 用思维树解决“24点游戏”
图11是ToT解决“24点游戏“的例子:初始输入一组数字后,算法首先利用提议提示(Propose Prompt)生成多种可能的运算路径(如“10 - 4 = 6”或“4 + 9 = 13”),并基于当前状态扩展潜在的组合方案;随后通过评价提示(Value Prompt)对这些路径进行实时评估,判断其接近目标24的可行性(例如“10 + 14 = 24”直接标记为有效解,而“10 + 13 + 13 = 36”则被判定超出范围),从而筛选出最具潜力的分支;通过迭代生成与评估的循环,逐步剪枝无效路径后,最终收敛至最优解。
图12 早期的经典智能体设计
在复杂智能体应用的开发中,模块化设计和标准化协议是构建高效、可扩展系统的两大基石:
目前,模块化的思维已在各个开发平台中充分体现——当前的智能体开发平台主要支持两种开发模式:
图13 智能体开发模式
图14 工作流开发模式
通过上述两种模式开发的应用,既可独立发布,也可用作工具嵌套至更复杂的系统之中。将工作流与智能体结合,能够充分发挥结构化流程管理与自主决策能力的双重优势,显著提升任务执行的效率与灵活性:工作流通过明确的步骤和规则确保任务执行有序、可控,适合处理标准化、重复性操作(如数据验证、审批流程);智能体基于大模型的推理能力可动态拆解复杂任务、调用工具、适应环境变化,以在非结构化场景(如个性化服务、异常处理)中自主决策。
但同时,标准化的缺失仍是制约智能体领域发展的一大瓶颈。由于缺乏统一的通信和协作协议,智能体彼此孤立,难以实现跨平台、跨领域的高效互联与协作。为消除智能体间的语言隔阂,当前正构建一个覆盖后端到前端的通信协议生态。该体系以JSON为核心信息格式,通过结构化字段(如type
、action
、params
)实现标准化通信,并凭借其跨语言兼容性(适配Python等主流语言)、轻量化特性(适合高频交互)及结构化表达能力(支持嵌套数据与多模态内容),构建了高效且灵活的跨平台协作基础。
图15 以MCP、A2A、AG-UI为代表的智能体通信协议栈
图16 MCP就像是一个Type-C扩展坞
以下是一个天气查询的例子:天气数据源(Server)负责接收包含action和params的请求,执行对应操作后返回结果;智能体(Client)则通过发送请求并解析响应,完成与数据源的通信。整个过程通过统一的字段定义和固定的消息格式解耦了双方的内部逻辑,使得功能扩展(如新增天气查询)和错误处理(如"type": "error")均能通过协议快速实现。
// Client发送请求:查询洛桑天气{ "type": "request", "action": "get_weather", "params": ["Lausanne"]}// Server返回响应:洛桑当日天气{ "type": "response", "result": { "city": "Lausanne", "temperature": 28, "condition": "Sunny", "humidity": "65%" }}
// Client发送请求(错误示例):查询一个不存在城市的天气{ "type": "request", "action": "get_weather", "params": ["InvalidCityName123"]}// Server返回报错信息:找不到该城市{ "type": "error", "message": "City not found: InvalidCityName123"}
// Agent Card结构示例{ "name": "智能旅行助手", "description": "专业的旅行规划和预订服务", "provider": "TravelTech Inc.", "url": "https://api.travelagent.com/a2a", "version": "1.0.0", "capabilities": ["streaming", "pushNotifications"], "authentication": { "schemes": ["Bearer"] }, "skills": [ { "id": "flight-booking", "name": "航班预订", "description": "搜索和预订国际航班", "inputModes": ["text", "data"], "outputModes": ["text", "data"] } ]}
大模型与智能体的发展历程,标志着人工智能从“被动响应”向“主动决策”的深刻转变。自Transformer架构问世以来,人工智能系统通过海量数据训练,在语言理解、知识整合及多模态感知方面取得了显著进步。智能体则借助ReAct、MCP等里程碑式进展,逐步具备了任务规划、环境交互和自主执行的能力。两者的结合不仅改变了人与机器的合作方式,更在医疗诊断、教育个性化、工业自动化等领域展现出颠覆性潜力。如今,AI不仅能回答问题、创作内容,还能主动规划行程、协调资源,甚至在复杂场景中做出决策——这种能力的跃升正在重塑各行各业的运作逻辑。
然而,智能体的未来仍面临核心挑战。一方面,基于Transformer架构的大模型可能面临算力瓶颈与数据效率天花板,参数规模的指数级增长难以持续;另一方面,大语言模型是否为通往通用人工智能(AGI)的终极路径?卷积神经网络(CNN)之父杨立昆指出,依赖统计关联的深度学习范式难以实现真正通用智能,需回归符号推理与物理建模的融合路径。苹果公司于今年6月发表的《The Illusion of Thinking》进一步质疑当前模型的“幻觉”本质——其看似逻辑的输出实为模式匹配的产物,而非来源于可泛化的因果推理能力。这些争议恰恰揭示了智能体发展的关键转折点:在享受技术便利的同时,人类或许需要重新思考——我们究竟需要怎样的智能?是更强大的计算工具,还是能真正理解世界、与人类共生的智慧伙伴?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-26
阿里 Qoder 把这层 AI 编程的窗户纸捅破了
2025-08-26
为什么说上下文工程是AI产品成功的关键?
2025-08-26
DeForge:把 AI Agent 搭建变成“拖一拖、连一连”的简单事
2025-08-26
最高提效8倍!腾讯游戏发布专业游戏AI大模型,美术师做动画不用辣么“肝”了
2025-08-26
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
2025-08-26
别碰Vibe Coding!有点难受,但很上头【含实操与见解】
2025-08-25
独家 !百度正式推出AI搜索APP“梯子AI”
2025-08-25
为什么大多数 AI 产品让人觉得“像骗局”
2025-08-21
2025-05-29
2025-06-01
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-08-26
2025-08-25
2025-08-25
2025-08-25
2025-08-23
2025-08-23
2025-08-22
2025-08-22