微信扫码
添加专属顾问
我要投稿
“ReAct就是可以让LLMs像人类一样可以边推理边行动的一种动态推理模式,传统的推理和行动分离的模式会导致无法应对实时变化的环境,直接端到端的推理由于没有外界行动的反馈更容易造成错误决策,而使用ReAct可以及时得到行动反馈,做出稳健的决策。
与之前将LLM推理和行动两方面的能力作为单独的主题研究不同,本研究中探索了使用 LLM 以交替方式同时生成推理轨迹和特定于任务的动作,从而允许两者之间产生更大的协同作用:推理轨迹有助于模型推断、跟踪和更新动作计划以及处理异常情况,而动作则使它能够与知识库或环境等外部来源进行交互并收集额外信息。
在问答(HotpotQA)和事实验证(Fever)任务中,ReAct 通过与简单的维基百科 API 进行交互,克服了思维链推理中的普遍问题幻觉和错误传播,并生成比没有推理轨迹的基线更易于理解的人类般的任务解决路径。此外,在两个交互式决策制定基准 ALFWorld 和 WebShop 中,ReAct 在仅用一个或两个上下文示例的情况下,分别以绝对成功率 34% 和 10% 超越了模仿学习和强化学习方法。
人类智能的独特之处在于,能够无缝地将任务导向的行为与言语推理相结合。这种“行动”和“推理”的紧密结合使得人类能够在新的情况下快速学习新任务,即使面临看不见的情况或信息不确定性也能做出稳健的决策或推理。
在LLM支持的自主系统中也可以采用此类的交互式决策方式。
本文进行了以下三个对比实验:
第一个实验是针对HotpotQA和Fever两个阅读理解任务的比较。在这个实验中,作者使用了PaLM-540B作为基础模型,并比较了四种不同的提示方法(标准提示、CoT提示、Act提示和ReAct提示)的效果。结果表明,ReAct提示比Act提示表现更好,在这两个任务上都取得了更好的准确率。
第二个实验是对ReAct和CoT两种提示方法的比较。在这个实验中,作者比较了ReAct提示和CoT提示在HotpotQA和Fever两个任务上的效果。结果表明,ReAct提示在Fever任务上表现略好于CoT提示,但在HotpotQA任务上略微落后于CoT提示。
第三个实验是在ALFWorld和WebShop两个决策制定任务上的比较。在这个实验中,作者使用了随机标注的轨迹来提示模型,比较了Act提示和ReAct提示在这两个任务上的效果。结果表明,ReAct提示在这两个任务上都表现得更好,特别是在WebShop任务上,ReAct提示的表现甚至超过了现有的模仿学习方法。
ReAct有以下几个优点:
ReAct目前是一种无监督的学习方法,仍然缺乏对于长期奖励的关注。作者表示未来的研究将考虑结合强化学习,以实现更好的长期规划和决策能力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-29
AI+合同审查落地分享(下-1- 合同智能审查)
2025-07-29
AI 应用开发,还需要意图识别吗?
2025-07-29
一键切换不同的 Claude Code API
2025-07-29
一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的概念和联系
2025-07-29
腾讯的IDE codeBuddy体验来了,说点自己的感受。
2025-07-29
突发:GPT-5下周发布
2025-07-29
WAIC 2025 观察:大模型进入“效率与场景”决胜期
2025-07-29
爆火了大半年,Agent 到底能干好多少活 | WAIC 特别策划
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-07-29
2025-07-29
2025-07-28
2025-07-27
2025-07-27
2025-07-25
2025-07-24
2025-07-24