我要投稿

ReAct：LLMs中推理与行为的协同作用

发布日期：2024-07-15 13:58:29 浏览次数： 2591

作者：ChaosstuffAI

微信搜一搜，关注“ChaosstuffAI”

一句话总结

“
ReAct就是可以让LLMs像人类一样可以边推理边行动的一种动态推理模式，传统的推理和行动分离的模式会导致无法应对实时变化的环境，直接端到端的推理由于没有外界行动的反馈更容易造成错误决策，而使用ReAct可以及时得到行动反馈，做出稳健的决策。

摘要

与之前将LLM推理和行动两方面的能力作为单独的主题研究不同，本研究中探索了使用 LLM 以交替方式同时生成推理轨迹和特定于任务的动作，从而允许两者之间产生更大的协同作用：推理轨迹有助于模型推断、跟踪和更新动作计划以及处理异常情况，而动作则使它能够与知识库或环境等外部来源进行交互并收集额外信息。

在问答（HotpotQA）和事实验证（Fever）任务中，ReAct 通过与简单的维基百科 API 进行交互，克服了思维链推理中的普遍问题幻觉和错误传播，并生成比没有推理轨迹的基线更易于理解的人类般的任务解决路径。此外，在两个交互式决策制定基准 ALFWorld 和 WebShop 中，ReAct 在仅用一个或两个上下文示例的情况下，分别以绝对成功率 34% 和 10% 超越了模仿学习和强化学习方法。

介绍

人类智能的独特之处在于，能够无缝地将任务导向的行为与言语推理相结合。这种“行动”和“推理”的紧密结合使得人类能够在新的情况下快速学习新任务，即使面临看不见的情况或信息不确定性也能做出稳健的决策或推理。

在LLM支持的自主系统中也可以采用此类的交互式决策方式。

实验

本文进行了以下三个对比实验：

第一个实验是针对HotpotQA和Fever两个阅读理解任务的比较。在这个实验中，作者使用了PaLM-540B作为基础模型，并比较了四种不同的提示方法（标准提示、CoT提示、Act提示和ReAct提示）的效果。结果表明，ReAct提示比Act提示表现更好，在这两个任务上都取得了更好的准确率。

第二个实验是对ReAct和CoT两种提示方法的比较。在这个实验中，作者比较了ReAct提示和CoT提示在HotpotQA和Fever两个任务上的效果。结果表明，ReAct提示在Fever任务上表现略好于CoT提示，但在HotpotQA任务上略微落后于CoT提示。

第三个实验是在ALFWorld和WebShop两个决策制定任务上的比较。在这个实验中，作者使用了随机标注的轨迹来提示模型，比较了Act提示和ReAct提示在这两个任务上的效果。结果表明，ReAct提示在这两个任务上都表现得更好，特别是在WebShop任务上，ReAct提示的表现甚至超过了现有的模仿学习方法。

结论

ReAct有以下几个优点：

简单直观：设计ReAct提示是直接的，人类注释者只需将其思考以语言的形式添加到其采取的动作之上。
通用灵活：由于灵活的思想空间和思想-动作出现格式，ReAct适用于各种任务，包括问答、事实验证、文本游戏和网页导航等。
性能表现良好：ReAct仅需学习一到六个上下文示例即可泛化到新任务实例，始终优于只使用推理或行动的基线方法。
可解释性和可控性：ReAct提供了可解释的决策过程，使人类能够轻松检查推理和事实正确性。此外，人类还可以通过编辑思路来控制或纠正代理行为。

ReAct目前是一种无监督的学习方法，仍然缺乏对于长期奖励的关注。作者表示未来的研究将考虑结合强化学习，以实现更好的长期规划和决策能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-07

程序员的最后一块拼图：为什么你必须学会用 Claude Code？

2026-02-07

OpenClaw 爆火却难部署？用 Cherry Studio 一键解锁，零门槛打造你的超级 AI Agent

2026-02-06

国产最强 AI 进军终端！Kimi Code CLI 正式发布，让你的命令行直接起飞

2026-02-06

AI记忆正成为新操作系统：检索已过时，生成式记忆才是未来

2026-02-06

简单就是美！Claude Code Ralph循环机制详解

2026-02-06

OpenAI 发布 GPT-5.3-Codex，一文详解

2026-02-06

火拼升级！OpenAI、Anthropic同日发布新模型，一个能替你写代码，一个能替公司管流程

2026-02-06

Claude Code最佳实践

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

大家都在问

程序员的最后一块拼图：为什么你必须学会用 Claude Code？

2026-02-07

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部