我要投稿

谷歌 AI Agent 白皮书（2）--认知架构

发布日期：2025-03-24 07:54:28 浏览次数： 2401

作者：哆啦的AI产品实践录

微信搜一搜，关注“哆啦的AI产品实践录”

想象一位忙碌厨房中的主厨，其目标是为顾客烹制美味菜肴。这一过程遵循信息收集→规划→执行→调整的循环流程：

信息收集

获取顾客订单、检查储藏室与冷藏柜的食材库存。

内部推理与规划

基于现有资源（如食材种类、数量），推断可实现的菜肴及风味组合。

行动执行

具体操作：切配蔬菜、调配香料、煎制肉类。

动态调整

根据实时反馈（如食材耗尽、顾客口味评价）修正计划，并利用历史结果优化后续行动。

这一循环机制构成了厨师达成目标的独特认知架构，与智能体的运作逻辑高度相似。

认知架构：智能体的目标达成机制

正如主厨通过循环流程完成任务，智能体（Agent）的认知架构同样基于信息迭代处理→决策制定→行动优化的闭环机制实现目标。其核心依赖编排层（Orchestration Layer），该层承担以下关键功能：

记忆与状态管理：维护短期/长期记忆，追踪任务执行上下文。

推理与规划：利用快速演进的提示工程（Prompt Engineering）技术及框架，指导模型生成逻辑连贯的决策链。

环境交互增强：通过动态调整策略，提升智能体与外部环境交互的效率与任务完成率。

当前，语言模型的提示工程框架与任务规划研究进展迅速，以下是几种主流方法论（截至本文发布时）。

主流提示工程框架

ReAct（推理-行动协同）

核心机制：引导语言模型对用户查询进行推理（Reason）并触发行动（Act），支持带上下文示例或无示例场景。

优势：

在多项任务中超越当前最优（SOTA）基线模型。

提升大语言模型（LLM）的人类可解释性与可信度。

思维链（Chain-of-Thought, CoT）

核心机制：通过中间推理步骤显式呈现模型的思考过程。

衍生技术：

自洽性（Self-consistency）：聚合多条推理路径的结果以提升准确性。

主动式提示（Active-prompt）：动态选择最优示例优化上下文学习。

多模态CoT：融合文本、图像等多模态数据进行联合推理。

思维树（Tree-of-Thoughts, ToT）

核心机制：扩展CoT，允许模型并行探索多条推理路径，形成树状决策结构。

适用场景：

需战略前瞻的任务（如复杂游戏、多步骤任务拆解）。

开放式问题求解（如创意生成、多方案比选）。

Agents（智能体） 可运用上述推理技术或其他多种技术，为用户的请求选择最佳后续行动。例如，假设一个智能体被编程使用 ReAct框架 来为用户查询选择正确的行动和工具，其执行流程可能如下：

用户向智能体发送查询
智能体启动ReAct流程
智能体向模型提供提示（prompt），要求模型生成下一步ReAct步骤及其对应输出：
a. 问题（Question）：来自用户查询的输入问题，随提示提供
b. 思考（Thought）：模型对下一步行动的推理
c. 行动（Action）：模型决定采取的下一步行动
i. 此处可进行工具选择
ii. 例如，行动可能是 [Flights, Search, Code, None]中的一个，前三个代表模型可选择的具体工具，最后一个表示“不选择工具”
d. 行动输入（Action input）：模型决定传递给工具的输入参数（若有）
e. 观察（Observation）：行动/行动输入执行后的结果
i. 该思考/行动/行动输入/观察可重复N次（按需循环）
f. 最终答案（Final answer）：模型针对原始用户查询生成的最终响应

4. ReAct循环结束，最终答案返回给用户

如图所示，模型（Model）、工具（Tools）和智能体配置（Agent Configuration）通过协同工作，能够基于用户原始查询返回基于事实的简明响应。尽管模型可能依赖先验知识进行猜测（产生幻觉），但在此案例中它选择调用工具（Flights）搜索实时外部信息。这些额外信息被反馈至模型，使其能够：