我要投稿

从CoT到ReAct：一文读懂让AI表演“深度思考”和“使用工具”的魔力

发布日期：2025-10-31 08:12:51 浏览次数： 1530

作者：搞砸实验室

微信搜一搜，关注“搞砸实验室”

欢迎关注，博主经济专业毕业，前项目经理，裸辞gap中，在跨领域了解AI，有各种稀奇古怪观察碎碎念~

我走得很慢，但是没关系，祝愿我们都发现各种可能性~

01. 智能 vs 智障

GPT首次出圈亮相，人们被它强大流畅的问答能力给震撼到了，但随着LLMs在现实环境中运用越来越广泛，我们总是能够发现一些莫名其妙的bug，让我们觉得AI在“智能”和“智障”之间反复横跳。比如去年的时候一些大模型经典推理“9.11大于9.8”……

业界和学者发现在算术推理（做数学题）、常识推理（比如梳子放在梳妆台）和符号推理领域，直接提问大模型，它的表现很差。

不仅表现很差，它的整个决策过程还是黑箱的，你没有办法判断它是怎么得出最后结论的，这使得在金融、医疗等需要高可靠性和问责制的领域部署大模型面临巨大挑战 。

在拥有强大的现代大模型背景下，怎么提升模型“推理能力”又成为了新的课题。今天就来看看几个简单又好用的提升大模型做推理任务的框架，会包含：

CoT（Chain of Thought）
CoT-SC（Chain of Thought - Self Consistency）
ToT（Tree of Thoughts）
ReAct（Reasoning and Act）

我觉得这几个框架很有意思的是：

它们都是“Prompt-based ”框架，也就是说，它们都仅仅通过巧妙的设计“提示词”，不用额外训练，就让大模型在推理任务上的表现有了显著的提升，可谓是“便宜又好用”的典范。

它们都让大模型通过“自然语言”来“显式地模仿人类的决策过程”，体现出了设计者“从人类身上寻找”灵感的思路。我们知道，很多现代发明都受到“大自然的启发”，在人工智能这条路上，我们真的在迁移“自身的能力”给它们。

这种模仿，不仅一定程度缓解了大模型决策的“黑箱”问题，还在实际改变了大模型的“决策”，显得它好像真的会思考一样。这是非常有意思的现象。

其中ReAct框架更是因为其强大的扩展性演变成了一种基础性的设计范式 (Design Pattern)，在业界也被广泛采用，并成为构建现代 AI 代理 (Agent) 的事实标准之一。

02. 让模型来表演推理

现代大模型拥有千亿级别的参数，这些参数在人类眼中是“无法解读”的数字。我们询问一个问题，大模型吐出一个答案，但是我们不知道它是怎么得到这些答案的，很难去判别答案的可靠性，要怎么解决这个问题呢？

最直观的方式是，在不改变“连接主义大模型”的框架上，单纯使用“提示词”来让模型把“推理”表演一遍，就像是在模仿人类思考时的“内心独白”。

让模型“用自然语言，先说出推理步骤，然后再说答案”，直接避免黑箱问题，这个思路就是CoT（Chain of Thought）所采用的。

CoT论文中采用的方法很简单：就是模型在回答问题之前，事先展示几个“推理”的文字例子，这些例子会包括“问题+解决问题的中间步骤+最终答案”，然后再让大模型去回答现在的问题。

大模型就会学习提示词中的例子，先“展示”中间步骤，再阐述是怎么从这些“中间步骤”得到最终答案的。

这种极其强大的模仿能力又被称为In-Context Learning，意思是模型不需要重新训练，就能像一个学霸一样，仅通过看几个例子就瞬间学会解题方法。

这个办法比起标准的“直接提问”，不仅在实证上大幅提高了模型面临推理问题时的表现，还一定程度解决了“连接主义”大模型完全黑箱的问题。

（PS：连接主义 vs 符号派：这是AI发展的两条技术路线。连接主义（现在的主流AI）像人脑，通过大量神经元连接学习，内部机制复杂像个“黑箱”；符号派（早期AI）则像计算机程序，基于明确的逻辑规则进行推理，步骤清晰。）

甚至后面的研究更加夸张，甚至连“举几个例子”都不需要了，对于能力特别强大的（如百亿、千亿参数级别）模型，只需要说“Let's think step by step”这一句咒语，就能够触发大模型在给出最终答案之前先输出自己的推理工作流，使推理效果显著提升。

CoT是一个特别简单有效的框架，但是它的缺陷也来源于此：它不进行事前的规划，可能在一开始就没有选对方向；它不检查自己的结果，可能在思维链的某一个环节胡说八道，一本正经的硬凑答案，或者因为前面的环节已经错误，在一条错误的道路越跑越偏。为了修正这些问题，让这种连接主义的模型“推理”更加可靠，学者们采用了很多种方案。

CoT只让模型进行一次推理，可能得出完全错误的答案，那么让模型多思考几次不就可以了？在这条思路下诞生了CoT-SC（Chain of Thought Self Consistency），这种方法认为，模型如果通过多种路径思考出相同的答案，那么那个“答案”是正确的概率就很高。

好像在无法验证“真相是什么”的情况下，我们询问了多个专家，专家的意见都指向同一种描述，那么这个描述的可靠性就很高。

CoT-SC在Prompt构造上跟CoT完全一致，只是在“解码（大模型生成并输出token）”环节不同。

CoT-SC会选择一种更加“多样化”的输出策略：通过调节Temprature、Top-k等技术参数产生出“多条”推理路径，然后统计每个路径下得到的答案。“大多数推理路径投票的答案”就是模型给到用户的最终答案。

与纯CoT相比，CoT-SC在多种数据集上的表现都显著提升：GSM8K (小学数学应用题，+17.9%)，SVAMP (变体数学应用题，+11.0%)，AQuA (代数应用多选题，+12.2%)……

它赋予了模型一种判断“答案自信程度的方法”。当模型生成的多个答案非常分散、一致性很低时，可以将其作为一个信号，表明模型对当前问题的“信心不足”。这使得模型能够“知道自己何时不知道”。

CoT-SC虽然让模型表演了“多种不同的”推理路径，但是它在每条路径上都是“一条道走到黑的”，这产生了极大的浪费。CoT-SC论文中的实验主要使用了40条推理路径来报告其最佳结果，想一想一个问题要产生40条推理路径并且还需要详细描述中间步骤，是有多么烧token？

其实有些路径从一开始就可以看出来“不对劲”，有些路径走着走着“不对劲了”，比较省力的办法不是从头开始，而是“返回到上一步”再重新去寻找解决的方案。

于是一种借鉴了经典符号派AI思路的方法——ToT（Tree of Thought）诞生了。

早在1956年创立AI学科的达特茅斯会议上，艾伦·纽厄尔（Allen Newell）和赫伯特·西蒙（Herbert A. Simon）就展示了“逻辑理论家（Logic Theorist）”程序。

“逻辑理论家”旨在证明怀特海和罗素在其巨著《数学原理》中的数学定理。它的核心方法论是将推理视为一种搜索问题。

程序从一个初始假设（树根）出发，通过应用逻辑规则进行演绎（树枝），在一个不断扩展的搜索树中寻找待证明的命题。

为了应对搜索空间呈指数级增长的“组合爆炸”问题，纽厄尔和西蒙引入了“启发法（heuristics）”——模仿人类解决问题时所用的“经验法则”，凭着“直觉”剪除那些看起来不太可能通向解决方案的分支。

“逻辑理论家”成功证明了《数学原理》第二章前52个定理中的38个，甚至为其中一些定理找到了更简洁的证明。它首次具体地证明了“一台机器可以执行此前被认为是智能的、创造性的、并且是人类独有的任务” 。

ToT（Tree of Thought）的核心观点也是“把推理问题，变成一个搜索问题来做”。它这次不会让模型“一条道走到黑”了，而是变成“走一步，想一下”，并且还增加了“回溯”和“反思”的环节。让模型的推理“表演”越来越接近人类真正的决策过程。

ToT论文里面介绍了3个任务：凑24点、5*5的填字游戏和创意写作。

我在这里就拿“凑24点”来举例子了。它的游戏要求是：利用“加、减、乘、除”操作，把给出的4个数字凑成24。

框架有4个核心步骤：

引导模型分解问题。
引导模型产生Thoughts。

对已有路径进行“前瞻性”评估。
利用搜索算法确定下一个节点。

第一步，引导模型分解问题。这一步是通过针对性设计prompt来完成的。比如在“凑24点”这个游戏里面，作者首先给到的指引是：一次只能选择2个数字来产生1个新数字。

“Use numbers and basic arithmetic operations (+ - * /) to obtain 24. Each step, you are only allowed to choose two of the remaining numbers to obtain a new number……（在这后面是5个范例）”

通过这种人为的“拆解”，来让模型不得不遵循作者指定的框架走很多步完成任务。

第二步，引导模型产生Thoughts。这个Thoughts就是推理路径中的一步，会形成“树的节点”。在论文里面有两种产生Thoughts的方式，都是通过“调整提示词”来实现的：

Sample：独立产生Thoughts。这依赖外部的程序把“相同的提示词”一遍又一遍地传递给大模型，每次传递是隔离的，大模型不会记得以前说过了什么。
只是因为调节了Temperature、Top-K等参数，模型的回答会有随机性。这种方法比较适合那种“答案不可枚举”的场景，比如创意性写作。

Propose：同时产生多个Thoughts。这个方法在提示词中直接要求模型“一次性生成K个不同的方案”，这样模型就不会重复提出方案。这种方法很适合那种“答案可以枚举”的场景，比如凑24点。

第三步，对于模型产生的路径进行“前瞻性”评估。这个评估依据已经获得的信息，去“直觉性”的感受一下每条路径成功的可能性，从而确认探索的顺序，这就是“启发法”。

所谓“直觉”判断，就是直接用“Few-Shot Prompt”引导大模型自己做判断。评估的方法也可以分为两种。

Value：独立评估每个State（即为思维路径）。这个方法依赖外部程序多次传递给模型“设计好的评估提示词”，让模型“独立”对每一条路径进行打分或者分类，从而判断下一步的探索顺序。
在凑24点中，这个提示词是这样构造的：
“Evaluate if given numbers can reach 24 (sure/likely/impossible)”
代表模型实际上完成的是一个分类任务，判断每条路径成功凑出24点是“一定”、“有可能”还是“不可能”。
然后接下来是几个精巧的范例：比如对于10、14这种简单情况，要给出sure；对于11、12这种明显凑不出24的，要给出impossible；而对于5、7、8这种有希望但又不确定的情况，则引导它给出likely。

Vote：不给每个路径单独打分，而是在一组不同的状态（states）中进行比较和选择。这种方法适用于不好量化评估的场景。比如在创意写作的任务中，模型需要评估生成文本的连贯性，在绝对值打分不好区分的情况下，可以直接给出几段文本，让模型选取其中“最连贯”的一个。

第四步，利用搜索算法确定下一个节点。我们刚刚提到了“把推理问题，当成一个搜索问题来看”，ToT在每个节点都衍生出多个节点，一个一个都去探索会面临“组合爆炸”问题，确定一种“选择路径的策略”，就是“搜索算法”。这里使用了两种经典的搜索算法：

广度搜索：每一步保留评估排序“top b”的方案进行探索（b是人为控制的参数）。
相当于在每个岔路口，它都会把“前b个好方案”探索完，然后再往下走。再往下走也是探索“前b个好方案”。“凑24点”实验使用的是这个搜索方案。
深度搜索。每一步只探索“最有前景”的那个方案，一头扎下去直到“解决问题”或者“走到死路”。
走到某一步S，如果在评估环节，模型对这条路径的判断是“死路”，会直接把S下面的路径删除（剪枝），返回S的上一步选择“次优”的选项继续探索，以此类推，直到成功为止。

在凑24点任务上，ToT的表现优于CoT-SC。

在ToT中，模型处于每个节点，都需要停下来思考接下来有几条路径，这使得模型展示出了“计划”行为。在模型自己提出了几个推理路径之后，还需要对于自己提出的路径进行评估，使用了经典的启发法，使得模型展示出了“反思”行为。在模型一条路径失败之后，模型可以回退到上一个节点重新选择另外的“计划”，这是一种有效的自我纠错机制。这样的过程是不是就很接近人类在做计划的时候会使用的办法？

Tree of Thought清晰地指出了单线程、线性推理的局限性，并提供了一个符合人类思维直觉的解决方案。但是它在工程实践上的巨大开销（金钱、时间、复杂性），使其并没有被广泛应用到主流产品中。

这里稍微再提一下在ToT之后，还出现了另外一种框架来提升模型做复杂任务的能力：GoT（Graph of Thoughts）。

在原始的论文中，使用了“排序任务（比如给32个数字排序）”来测试GoT框架表现，显示GoT的成功率要比ToT的成功率高62%，并且成本比ToT减少>31%。证明GoT是一个有效且集约的框架。

GoT认为人类在思考过程中产生的想法不是“僵硬的树状结构”，而是非常灵活多变的“网状结构”。

人类可以灵活的从一个想法跳跃到另外一个想法，从而产生“顿悟”；可以把不同的想法综合起来，取长补短，最后形成一个和原始想法都不一致的新想法；人类还能够先写一个“草稿”出来，然后不停补充和完善这个“草稿”，最后形成一个成熟的想法。ToT强制模型只能够创造“树状的思考空间”，这实际上限制了模型的能力。

GoT把模型生成的“Thought”建模为任意图结构（Arbitrary Graph）——“Thought”作为顶点，边则对应这些顶点之间的依赖关系。

它允许模型对已经产生的“Thoughts”进行“变型（Transformation）”。论文里面的“变型”模仿人类思考的模式：

Aggregation（聚合）：将任意思想聚合为新的思想，以结合并强化这些思想的优势，同时消除它们的劣势。
Refining（精炼）：对当前思想的内容进行修改和完善。
Generation（生成）：可以根据现有的单一思想生成一个或多个新思想。

GoT设计了多个“程序组件”去组合实现这个“网状的推理过程”。去作者给的代码示例里面扒了一扒，本菜鸡大概的感受就是GoT实现起来比较复杂。

作者给出的“排序任务”示例在任务拆解、prompt设计、状态管理环节，都比较定制化，基本就是要“具体任务具体分析了”。而且还需要用代码去维护整个“图的状态、节点的依赖关系”，这背后有很多远超过“Few-Shot Prompting”的工程开销。但是引入“图结构”是一个很有启发性的做法。

03. 借助外部力量的框架：ReAct

上面提到的几种框架都是在使用模型的“内部”能力，还没有借助“外部”力量，这当然是不科学的——人类在完成复杂任务的时候也会“调阅外部资料”，或者是“使用外部工具”。

人类的决策过程是一系列“思考”和“行动”的组合，在这个过程中人类通过“外部反馈”更新自己认知，从而产生新的思考，直到达到自己的目标。

对应这一思路，ReAct产生了，它把模型的“推理/思考”和“行动”整合到了一起，仅仅用“提示词”就让模型在完成推理任务时的成功率比对应模仿学习和强化学习方法分别高出34%和10%，极其简洁有效。

（这里介绍原论文提出的ReAct框架，因为它非常具有扩展性，后面衍生出来的众多变种，可以说是Agent的最初框架，不在这里过多展开了）

ReAct是针对语言类任务的，它设定给模型一个简单的外部空间“Wiki”，它用于测试的数据集有2个：

HotPotQA：一个需要在两个或多个维基百科段落上进行推理的多跳问答基准数据集；
FEVER：一个事实验证基准数据集，其中每个声明被标注为支持（SUPPORTS）、反驳（REFUTES）或信息不足（NOT ENOUGH INFO），取决于是否存在维基百科段落来验证该声明。

在ReAct论文中，模型只能接收问题/声明作为输入，必须依靠其内部知识或通过与外部环境交互来检索知识以支持推理。

ReAct框架让模型不停重复“思考-行动-观察”这一行动轨迹，直到模型认为自己可以输出答案。

思考：接收到输入，分析自己需要采取的行动。

行动：模型可以采取的行动是提前定义好并且作为“上下文”输入给模型的，这里通过提示词要求模型输出自己要选择哪一种“行动”，为了方便后续处理，模型的输出格式是被控制的。

ReAct定义了3种行动给到模型，也就是模型要从这3种行动中选择一个（严格按照格式）输出。

action1：搜索[实体]——外部程序会把“[]”中的内容解析出来传给Wiki API进行查询，若对应“实体”维基页面存在则返回其前5句话，否则从维基百科搜索引擎推荐前5个相似实体。
action2：查找[字符串]——外部程序会把“[]”中的内容解析出来传给Wiki API进行查询，返回当前页面包含该字符串的下一句话，模拟浏览器Ctrl+F功能。
action3：完成[答案]——这是一个结束动作，模型输出这个动作，外部程序会解析“[]”中的内容作为最终给用户的回答，并且终止“思考-行动-观察”循环。

看下这是作者github里面给出的系统提示词，负责跟模型约定好“行动空间”：

instruction = """Solve a question answering task with interleaving Thought, Action, Observation steps. Thought can reason about the current situation, and Action can be three types:

(1) Search[entity], which searches the exact entity on Wikipedia and returns the first paragraph if it exists. If not, it will return some similar entities to search.

(2) Lookup[keyword], which returns the next sentence containing keyword in the current passage.

(3) Finish[answer], which returns the answer and finishes the task. Here are some examples. """

观察：在模型选择完“行动”之后，依靠外部程序把“行动的结果”连同历史“输入”和“行动”反馈给模型。模型开始进行新一轮的思考。

下面这个例子展示ReAct是怎么利用“Few Shot prompt”来让模型显式表演“思考-行动-观察”循环的。

除此之外，作者还分别使用了标准提示词、CoT、Act（即为只行动不思考的框架）、ReAct几种类型的回答轨迹数据去微调一个更小的模型，发现ReAct的轨迹数据带来的表现提升最大。

ReAct数据微调的62B模型，表现甚至好于没有经过微调（只使用Prompt的）540B模型。可见使用更多的标注“思考-行动-观察”数据去微调，可以更加极致的挖掘出ReAct框架的能力。

在这篇原始论文里面，作者只是设定了Wiki API为模型可以调用的工具，但这个“外部工具”的概念可以无限向外扩展，变成：日历、计算器、公司内部知识库，还有用途超级广泛的“代码解释器”……从而构建出“能够与外部世界互动”的Agent。这个框架具有极高的扩展性。

Lilian Weng一篇介绍LLM Powered Autonomous Agents的博客里面，给出了Agent的3个重要组成部分：

Planing（Subgoal and decomposition & Reflection and refinement）
Memory（Short-term memory & Long-term memory）
Tool Use（external APIs）

这3个组成部分在ReAct框架里面都能够看到雏形，而且它的实现还只需要加提示词+代码就可以了，提升效果还很明显，所以这真的是一个设计很巧妙的框架啊！！！

04. 小结

现代大语言模型自海量数据里面诞生，通过深度神经网络把知识隐性地储存在自己的参数中，体现出一种“暴力美学”。作为创作者的我们，对它“内部运行机制”甚至对它的“能力”，并不完全理解，正是因为如此，“可解释性AI（XAI）”也成为了新的研究热点。

学者们探索各种“提示词框架”，发现不同的“提示词”可以激发大模型不同的表现，试图从中找到“最极致挖掘大模型潜力的”提示方法，还有最符合“实际业务需求的”提示方法，这是“提示工程”要研究的内容。

CoT通过让大模型表演思考，让模型在推理类任务上的表现显著提高。CoT-SC通过让模型产生更多的思考路径，加上“多数投票”机制，让模型回答的稳健性进一步增强。这无比接近人类思考的方式，因为在不知道正确答案的时候，人类也能凭借着“交叉验证”等方法增加自己接近“真相”的概率。

ToT里面，我觉得是有“符号派AI”的一些思路，比如把“推理任务”转变一个“搜索任务”；比如让大模型自己去“直觉式”评估已有状态，优先探索那些“估值更高”的路线。在这个框架里面，模型在每一步，会优先“计划”自己有几条路径可走，按照“搜索策略”去逐一往下推进，如果进入死胡同，还可以“回溯”到上一个节点选择其他的路线。这些设计都让整个模型的决策过程更加“像个人类”。

GoT则比ToT更进一步，超越线性思维，引入了“图结构”，让模型可以对“Thoghts”进行合并、迭代，或者是基于它产生新的Thoughts。它相当于是定义了一种更加广泛推理框架，把前面几种推理结构都包含进行来了。

ReAct同样是一个极其简洁同时效果又很好的框架。它把“外界工具的调用”和“工具调用的反馈”跟“模型的思考”整合到一起。借助这个框架，模型不断完成“思考-行动-反馈”循环，直到达到目标。这跟我们去完成“Plan（计划）-Do（执行）-Check（检查）-Act（处理）循环”已经无比接近。

它在学术概念提出的时候作者只示范了调用简单的工具，但是这个“工具”的概念极具扩展性。经过这几年的发展，ReAct 框架在业界也已经被广泛采用，并成为构建现代 AI 代理 (Agent) 的事实标准之一。

ReAct 被LangChain、LlamaIndex等主流AI开发框架内置支持，在 GitHub、Hugging Face 等开发者社区，也涌现出大量基于 ReAct 思想构建的开源项目。感觉是Agent入门必看的框架~

我们可以发现这几个框架都只是通过“提示词引导”模型改变表现，要怎么“从源头上”就让模型更会推理就是另外一个话题了。

并且这几个框架还没有非常精细的处理“长期积累的历史对话”这件事，对于需要“长程依赖的任务”效果不佳，而“长期记忆”这件事就逐渐进入到比“提示词”更加复杂“上下文”要怎么处理的领域了。

祝愿我们都享受learning~

欢迎关注，博主经济专业毕业，前项目经理，裸辞gap中，在跨领域了解AI，有各种稀奇古怪观察碎碎念

我走得很慢，但是没关系，祝愿我们都发现各种可能性~

Transformer系列：

1. 六千字大白话Attention前传，一个零基础邪修Transformer的铺垫

2. 9k字详解Transformer Encoder，零基础Excel手搓邪修法

3. 9k字详解Transformer Decoder和啃论文易被忽略的3大技术，零基础Excel手搓邪修版

上下文工程系列：

1. 汇总1400+文献的神级“上下文工程”综述，治愈初学者的AI迷失症

2. 初学者硬读版“上下文检索与生成”到底是啥？

3. 学习上下文工程邪修版，万字详解啥是“上下文处理（Context Processing）”

4. 学习上下文工程综述长文邪修版，详解 “上下文管理（Context Management）” 在管理啥？

关于我：

1. 写给同路人｜裸辞之后我还好吗？

2. 做自己其实是一种充满痛感的体验——但是不这样并不会更好

引用

CoT (Chain of Thought / 思维链)

Few-Shot CoT: 首次提出在提示词中提供几个“思维链”范例来引导模型进行逐步推理的方法。

文献: Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.

链接:https://arxiv.org/abs/2201.11903

Zero-Shot CoT: 提出了著名的提示 "Let's think step by step" ，无需范例即可激发强大模型的推理能力。

文献: Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). Large Language Models are Zero-Shot Reasoners.

链接:https://arxiv.org/abs/2205.11916

CoT-SC (Chain of Thought - Self Consistency / 思维链自洽)

文献: Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

链接:https://arxiv.org/abs/2203.11171

ToT (Tree of Thoughts / 思维树)

文献: Yao, S., Yu, D., Zhao, J., Sha, D., Niu, Z., & Tsvetkov, Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models.

链接:https://arxiv.org/abs/2305.10601

GoT (Graph of Thoughts / 思维图)

文献: Besta, M., Blach, N., Kubicek, A., Gerstenberger, R., Gianinazzi, L., Gajda, J., ... & Hoefler, T. (2023). Graph of Thoughts: Solving Elaborate Problems with Large Language Models.

链接:https://arxiv.org/abs/2308.09687

ReAct (Reason + Act / 推理与行动)

文献: Yao, S., Zhao, J., Yu, D., Du, N., Sha, D., Tsvetkov, Y., & Cherry, C. (2022). ReAct: Synergizing Reasoning and Acting in Language Models.

链接:https://arxiv.org/abs/2210.03629