我要投稿

AI Agent 的下半场：从token生成到自主体验

发布日期：2025-04-23 08:26:46 浏览次数： 2032

作者：AI2Paradigm

微信搜一搜，关注“AI2Paradigm”

“

?²·ℙarad?g?智能平方范式研究：书写解构智能，范式提升认知

AI agents 是由大型语言模型（LLM）驱动的行动体，但 LLM 的核心能力在于生成 token，类似于一个“语言的缸中之脑”——它不具备外部感知或与真实世界直接交互的能力，也没有内生的意志或自发的动机。因此，在当前技术阶段，AI agents 的行动动机仍然依赖于人类通过指令、提示（prompt）或任务定义来提供。

为了让 LLM 能够完成具体任务，我们需要为其构建一个“脚手架agent framework”，集成工具使用（tool use）、记忆（memory）等功能，以提供运行环境和外部支持。

Workflow 和 API 编排是两种常见的脚手架实现方式，用于将 LLM 的文本输出转化为可执行的行动。两者的主要区别在于设计灵活性：

• Workflow：通常采用预定义的、确定性的步骤序列，适用于固定的、流程化的任务。

• API 编排：支持更动态的工具调用，适合需要灵活决策和适应的复杂场景。

LLM 的“智能”（即其 token 生成能力）在这些系统中至关重要，它通过生成文本指令来指导行动。然而，行动动机的完整性和执行效果更多取决于人类设定的任务目标以及脚手架的设计，而非 LLM 自身是否能独立“理解”或“描述”动机。

未来，AI agents 的功能需要逐步内化，以减少对外部脚手架的依赖，从而提升效率和一致性。通过强化学习（RL）等技术，LLM 可以逐步在 token 生成过程中自然融入工具调用或记忆请求，使其行为更接近自主行动。例如：

• ReACT：通过提示（prompt）引导 LLM 在思考和行动之间切换，灵活且易于实现，适合快速部署。

• ReTool 和 ReSearch：通过 RL 将工具使用和搜索策略内化为模型的生成模式，显著提升特定任务的性能。

当前阶段，脚手架仍是不可或缺的，它不仅为 LLM 提供运行环境，还负责解析和执行 LLM 的输出，并将外部反馈整合回系统。未来，随着 RL 和模型微调（fine-tuning）技术的进步，部分脚手架功能有望内化到 LLM 中，但实现完全自主的 AI agents 仍需更多技术突破。脚手架的核心作用在于弥补 LLM 的局限，确保其输出在复杂任务中得以有效执行，以及OpenAI强调的安全护栏作用。

引言

AI agents怎样构建的讨论｜在大模型浪潮奔涌一年之后，“AI Agent”成为了新一轮技术叙事的核心热词。LangChain、OpenAI、Anthropic 相继发布构建框架与指南，一边铺设脚手架，一边重新定义“智能行动体”的样貌。与此同时，我们也看到越来越多技术人开始直面一个根本问题：

LLM 只是语言的“缸中之脑”，它真的能成为有动机的 Agent 吗？

正文

△

-Silver&Sutton提出：AI范式进入体验时代

我们必须承认，大语言模型（LLM）目前仍是一种“条件 token 生成器”。它通过训练学会在给定上下文下预测下一个词，表现出某种“智慧”，但本质上：

它没有“意志”——不会自己决定该干什么；
它没有“目标”——也不真正知道什么是“成功”；
它的“智能”只是在人类设计的 prompt、提示模板中被动发挥作用。

这种“缸中之脑”般的智能，无法真正自主行动。于是，我们才需要为它搭建“Agent 脚手架”：提供行动工具（Tool Use）、记忆系统（Memory）、状态反馈机制（Observations），再通过强化学习（RL）让它学会何时使用什么工具、如何达成既定目标。

这就是 ReAct、ReTool、ReSearch 等 Agent 框架方法论正在做的事：将语言模型的 token 生成能力，延展到连续行动和问题求解的空间。

LangChain 在其博客中指出，“Agent 的关键不是工具有多强，而是 LLM 能不能理解并描述任务目标，并据此动态组织行为。”；OpenAI 在其构建指南中，则提出“Agent 是模型 + 工具 + 指令”的系统性组合；Anthropic 更是将“Agentic Systems”定义为智能体在环境中主动调度工具、维持记忆和目标导向行为的整体能力。

但这些努力，仍局限在语言生成驱动的框架中：LLM 在 prompt 里“想”，调度工具“做”，得到反馈再“接着想”——它们都是“语言封闭空间”里的模拟行动。

那么，下一步呢？我们需要的是“体验时代的 Agent”。

正如 Sutton 和 Silver 在《The Era of Experience》中所提出的观点：