微信扫码
添加专属顾问
我要投稿
AI Agents的未来:从依赖指令到自主行动的转变。 核心内容: 1. AI agents当前依赖人类指令的局限 2. 脚手架框架在提升AI能力中的作用 3. 强化学习等技术如何推进AI向自主体验发展
“
?²·ℙarad?g?智能平方范式研究:书写解构智能,范式提升认知
AI agents 是由大型语言模型(LLM)驱动的行动体,但 LLM 的核心能力在于生成 token,类似于一个“语言的缸中之脑”——它不具备外部感知或与真实世界直接交互的能力,也没有内生的意志或自发的动机。因此,在当前技术阶段,AI agents 的行动动机仍然依赖于人类通过指令、提示(prompt)或任务定义来提供。
为了让 LLM 能够完成具体任务,我们需要为其构建一个“脚手架agent framework”,集成工具使用(tool use)、记忆(memory)等功能,以提供运行环境和外部支持。
Workflow 和 API 编排 是两种常见的脚手架实现方式,用于将 LLM 的文本输出转化为可执行的行动。两者的主要区别在于设计灵活性:
• Workflow:通常采用预定义的、确定性的步骤序列,适用于固定的、流程化的任务。
• API 编排:支持更动态的工具调用,适合需要灵活决策和适应的复杂场景。
LLM 的“智能”(即其 token 生成能力)在这些系统中至关重要,它通过生成文本指令来指导行动。然而,行动动机的完整性和执行效果更多取决于人类设定的任务目标以及脚手架的设计,而非 LLM 自身是否能独立“理解”或“描述”动机。
未来,AI agents 的功能需要逐步内化,以减少对外部脚手架的依赖,从而提升效率和一致性。通过强化学习(RL)等技术,LLM 可以逐步在 token 生成过程中自然融入工具调用或记忆请求,使其行为更接近自主行动。例如:
• ReACT:通过提示(prompt)引导 LLM 在思考和行动之间切换,灵活且易于实现,适合快速部署。
• ReTool 和 ReSearch:通过 RL 将工具使用和搜索策略内化为模型的生成模式,显著提升特定任务的性能。
当前阶段,脚手架仍是不可或缺的,它不仅为 LLM 提供运行环境,还负责解析和执行 LLM 的输出,并将外部反馈整合回系统。未来,随着 RL 和模型微调(fine-tuning)技术的进步,部分脚手架功能有望内化到 LLM 中,但实现完全自主的 AI agents 仍需更多技术突破。脚手架的核心作用在于弥补 LLM 的局限,确保其输出在复杂任务中得以有效执行,以及OpenAI强调的安全护栏作用。
LLM 只是语言的“缸中之脑”,它真的能成为有动机的 Agent 吗?
我们必须承认,大语言模型(LLM)目前仍是一种“条件 token 生成器”。它通过训练学会在给定上下文下预测下一个词,表现出某种“智慧”,但本质上:
它没有“意志”——不会自己决定该干什么;
它没有“目标”——也不真正知道什么是“成功”;
它的“智能”只是在人类设计的 prompt、提示模板中被动发挥作用。
这种“缸中之脑”般的智能,无法真正自主行动。于是,我们才需要为它搭建“Agent 脚手架”:提供行动工具(Tool Use)、记忆系统(Memory)、状态反馈机制(Observations),再通过强化学习(RL)让它学会何时使用什么工具、如何达成既定目标。
这就是 ReAct、ReTool、ReSearch 等 Agent 框架方法论正在做的事:将语言模型的 token 生成能力,延展到连续行动和问题求解的空间。
LangChain 在其博客中指出,“Agent 的关键不是工具有多强,而是 LLM 能不能理解并描述任务目标,并据此动态组织行为。”;OpenAI 在其构建指南中,则提出“Agent 是模型 + 工具 + 指令”的系统性组合;Anthropic 更是将“Agentic Systems”定义为智能体在环境中主动调度工具、维持记忆和目标导向行为的整体能力。
但这些努力,仍局限在语言生成驱动的框架中:LLM 在 prompt 里“想”,调度工具“做”,得到反馈再“接着想”——它们都是“语言封闭空间”里的模拟行动。
那么,下一步呢?我们需要的是“体验时代的 Agent”。
正如 Sutton 和 Silver 在《The Era of Experience》中所提出的观点:
“人类数据正在枯竭,未来智能的进步,必须依赖 Agent 与环境的交互经验。”
他们主张一种以“体验流(stream of experience)”为核心的智能范式:Agent 不再只是响应 prompt,而是拥有持续存在的状态、长期的环境交互、动态的目标演化与自我调整能力。这正是体验智能(Experiential Intelligence)所描绘的蓝图。
而这也与姚顺雨在《The Second Half》中所提出的转向惊人契合:
“AI上半场是做模型、benchmark打榜,下半场是思考 AI 到底要干嘛,我们该如何评估它真正的‘价值’。”
过去我们热衷在标准 benchmark 上刷分,如今我们需要构建新的评测逻辑、新的问题定义,让 Agent 在真实任务中证明自己。
我们看到一个转向正在发生:
从静态编排 → 动态感知与行动:LLM 不再仅是语言调度员,而是在环境中持续适应与优化的主动体;
从 prompt 激活 → 策略内化:Agent 不只是被动响应,而是通过强化学习、行为奖惩、长期经验,生成自主行为策略;
从人类数据 → 自生成经验:真正的智能突破,不在于记住所有人类知识,而在于从失败和交互中学习。
这场范式转变,不仅是工程实践的升级,更是对“智能本质”的一次深刻追问:
什么样的 Agent,才配称为“智能”? 它是否需要欲望、目标和记忆? 我们是否应该设计一个“经验激发、长期成长”的学习机制? 而人类,又是否愿意赋予它这样的自由?
或许,我们可以提出这样一种洞见:
AI Agent 的未来,不在于 prompt 多强、工具多炫,而在于它是否能自主生成经验、建立世界模型、追求长期效用。
这需要两件事:
技术层面,脚手架系统必须从“功能拼图”演进为“认知协同系统”;
评估层面,我们必须从“单轮回答的准确性”,转向“多轮协作的有效性”“长期目标的达成度”“与人互动的适配度”。
ReAct 是第一步,ReTool 是第二步,而“Experience Agent”将是第三步
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2025-04-29
打起来了!MCP VS A2A,谁才是Agent的未来事实标准?
2025-04-29
Google 的 A2A 与 MCP 该如何选择?还是两种都用?
2025-04-29
一站式AI应用开发平台 Firebase Studio
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28