AI Agent系列｜什么是 ReAct Agent？

发布日期：2026-02-24 08:34:20 浏览次数： 2195

作者：阿里云开发者

微信搜一搜，关注“阿里云开发者”

关于这个系列

作为 Lynxe(原JManus）的作者，我花费了很多课余时间来完善这个Func-Agent框架，也因此对于什么是ReAct Based Agent 有了更深一些的理解。

所以想把这些内容总结出来，是因为这个项目本身核心目的就是探索Agent的前沿最佳实践，目前已经有所小成，Lynxe能解决我自己面对的80%以上的问题了，所以我觉得值得把我实验下来有效的东西写出来，方便大家快速入门。

你可以访问 Lynxe(菱科斯)阅读详细源码来学习agent的一些最佳实践。这是一个非常完善的产品级的 Func-Agent框架。

https://github.com/spring-ai-alibaba/Lynxe

系列计划

什么是 ReAct Agent？ (本篇)
深入了解智能体工作流核心：Agent vs 传统编程 vs Workflow 的本质区别
深入解析Function Calling、MCP和Skills的本质差异与最佳实践

上下文管理的一些实践
并行执行的最佳实践与我走过的弯路

核心思想：观察-思考-行动

ReAct 这个名字听起来挺高大上，其实拆开看就明白了：Reasoning（推理）+ Acting（行动）。说白了，就是让 AI 一边想一边做，而不是想完了再做。

ReAct Agent 的工作方式其实挺像人类解决问题的过程。它不是一次性把整个流程都规划好，而是在有一个整体目标的前提下，走一步看一步。具体来说，它会先观察当前的情况，然后思考下一步该做什么，接着执行这个动作，再观察结果，根据结果决定下一步。这个过程会一直循环，直到任务完成。

打个比方，传统的方式就像你出门前把整个路线都查好，然后严格按照路线走。而 ReAct 更像是你出门后，走一段路，看看周围环境，再决定下一步往哪走。比如你要去一个没去过的咖啡店，传统方式是你提前查好所有路线，ReAct 则是你走到路口，看看路牌，再决定左转还是右转，边走边找。

实际例子

再举个更具体的例子。假设你要让 AI 帮你查"北京今天天气怎么样，适合穿什么衣服"。用 ReAct 的方式，AI 会这样工作：

1.观察：看到用户的问题，历史上下文为空

2.思考："我需要知道北京今天的天气"（思考是可选输出,就跟人的思考是内化发生的一样）

3.行动：调用天气查询工具，查询 "北京今天天气"

4.观察：获取到天气数据：温度 25°C，晴天，湿度 60%，风速 3m/s

5.思考："现在我知道天气了，需要查询穿衣建议知识库来获取具体的穿衣建议"（思考是可选输出）

6.行动：调用穿衣建议知识库查询工具，查询 "25度晴天适合穿什么衣服"

7.观察：获取到穿衣建议：25度晴天建议穿短袖 T 恤或薄长袖，可以带一件薄外套以防早晚温差，建议戴帽子和涂防晒霜

8.思考："我已经获取了天气和穿衣建议，应该将这些信息写入文件保存"（思考是可选输出）

9.行动：调用 writeToFile 工具，将完整建议写入文件

10.观察：建议已写入到文件 weather_suggestion.md

整个过程是观察-思考-行动-再观察的循环，而不是一开始就把所有步骤都定死。每一步都会根据当前的历史上下文和环境信息，动态决定下一步该做什么。

为什么需要 ReAct？

你可能会问，为什么要这么麻烦？直接写个固定流程不就行了吗？问题在于，很多现实任务其实没那么简单。你可能会遇到各种意外情况，比如 API 返回错误、数据格式不对、或者需要根据中间结果调整策略。ReAct 的优势就在于它能根据实际情况灵活应对，而不是遇到意外就卡住。

当然，这种灵活性也带来了一些代价，比如行为可能不那么可预测，有时候 AI 可能会"犯傻"。但总的来说，在处理复杂、不确定的任务时，ReAct 这种边想边做的方式还是很有优势的。

ReAct 是怎么实现的？

关键要素

ReAct 的实现其实离不开几个关键要素：

1. 历史上下文（History）ReAct 会维护一个对话历史，记录之前所有的思考、行动和观察。这样 LLM 在做决策时，可以参考之前发生了什么，避免重复操作或者走错路。

2. 观察当前环境信息（Current Environment Information）这是 Agent 在当前时刻接收到的外部信息，比如用户的输入、系统的状态、或者其他需要处理的数据。这些信息会作为 LLM 推理的输入，帮助决定下一步该做什么。

3. 语言模型（LLM Thinking）这是 ReAct 的"大脑"，负责推理和决策。每次需要思考下一步该做什么时，LLM 会根据当前的历史上下文、环境信息和观察结果，生成下一步的行动计划。（后续表格里这个think是隐藏的，最终表现形式就是toolcall）

4. 工具/动作（toolcall）这是 ReAct 的"手脚"，用来执行具体的操作。比如搜索、查询 API、读写文件等等。每个工具都有明确的输入输出，Agent 可以调用这些工具来完成实际工作。

5. 观察结果（toolcall结果）每次执行动作后，都会得到一个观察结果。这个结果会被反馈给 LLM，作为下一轮推理的依据。观察结果可能包括成功的数据、错误信息、或者需要进一步处理的内容。

执行流程示例

下面用一个完整的例子，看看 ReAct 是怎么一步步解决问题的。假设任务是："帮我查一下北京今天天气怎么样，适合穿什么衣服。"

轮次	历史上下文	当前环境信息	当前轮次提示词	行动(toolcall)	观察结果(toolcall结果)
Round 1	无	空	已知：当前历史上下文：&{历史上下文} 当前环境信息：&{当前环境信息} 用户目标："帮我查一下北京今天天气怎么样，适合穿什么衣服。" 做出下一步的决策 . 你必须最少使用一个工具来实现该决策	天气查询工具调用：查询 "北京今天天气"	天气查询工具返回：获取到天气数据：温度 25°C，晴天，湿度 60%，风速 3m/s
Round 2	已获取北京天气数据（25°C，晴天，湿度 60%，风速 3m/s）	天气工具：无额外环境信息	同上，提示词不会变化	穿衣建议知识库查询工具调用：查询 "25度晴天适合穿什么衣服"	穿衣建议知识库查询工具返回：25度晴天建议穿短袖 T 恤或薄长袖，可以带一件薄外套以防早晚温差，建议戴帽子和涂防晒霜
Round 3	天气数据（25°C，晴天，湿度 60%，风速 3m/s）；已获取穿衣建议：25度晴天建议穿短袖 T 恤或薄长袖，可以带一件薄外套以防早晚温差，建议戴帽子和涂防晒霜	天气工具：无额外环境信息、穿衣知识库工具：无额外环境信息	同上，提示词不会变化	writeToFile工具调用：内容为"北京今天天气：25°C，晴天，湿度 60%。建议穿短袖 T 恤或薄长袖，可以带一件薄外套以防早晚温差，建议戴帽子和涂防晒霜"	writeToFile工具返回：建议已写入到文件 weather_suggestion.md

从这里我们也可能看到，核心其实就是

已知：

当前历史上下文：&{历史上下文}

当前环境信息：&{当前环境信息}

用户目标："帮我查一下北京今天天气怎么样，适合穿什么衣服。"

做出下一步的决策：

你必须最少使用一个工具来实现该决策。

最终输出：建议已经写入到文件 weather_suggestion.md，你可以通过打开这个文件来看到具体建议。

从这个例子可以看出，ReAct 不是一开始就知道所有步骤，而是根据每轮的观察结果，动态决定下一步该做什么。如果 Round 1 搜索失败了，它可能会尝试其他搜索关键词，或者换一个策略。这种灵活性正是 ReAct 的核心优势。

伪代码

下面是一个 round 的执行流程伪代码，展示了核心的执行逻辑：

函数 执行一个轮次(用户目标, 历史上下文):    // 1. 获取当前环境信息    当前环境信息 = 获取当前环境信息()        // 2. 构建提示词（替换占位符）    提示词模板 = "已知：\n当前历史上下文：${历史上下文}\n当前环境信息：${当前环境信息}\n用户目标：\"${用户目标}\"\n\n做出下一步的决策\n\n你必须最少使用一个工具来实现该决策"    完整提示词 = 替换占位符(提示词模板, {        历史上下文: 历史上下文,        当前环境信息: 当前环境信息,        用户目标: 用户目标    })        // 3. 调用 LLM 进行推理（思考过程隐藏，直接输出 toolcall）    工具调用结果 = 调用语言模型(完整提示词, 历史上下文)        // 4. 解析工具调用    工具名称 = 解析工具名称(工具调用结果)    工具参数 = 解析工具参数(工具调用结果)        // 5. 执行工具调用    观察结果 = 执行工具(工具名称, 工具参数)        // 6. 更新历史上下文    新历史上下文 = 追加到历史上下文(历史上下文, {        行动: 工具调用结果,        观察结果: 观察结果    })        // 7. 返回结果    返回 {        观察结果: 观察结果,        新历史上下文: 新历史上下文    }结束函数
// 主循环函数 执行ReAct流程(用户目标):    历史上下文 = 空    当前轮次 = 1    最大轮次 = 10        当 当前轮次 <= 最大轮次 且 未完成任务:        结果 = 执行一个轮次(用户目标, 历史上下文)        历史上下文 = 结果.新历史上下文                如果 判断任务已完成(结果.观察结果):            中断循环                当前轮次 = 当前轮次 + 1    结束循环        返回 历史上下文结束函数

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业