第三篇：要真正入门AI，OpenAI的官方Prompt工程指南肯定还不够，您必须了解的强大方法论和框架！！！

浏览次数： 1570

提示工程总览

提示工程技术大概可以分成四类：

基于样本提示技术
思维链技术
自动增强技术
交互与推理技术

在上两篇篇文章中（第一篇，第二篇），我们已经介绍了（下图中标有和的部分）：

零样本提示（Zero-shot）
少样本提示（Few-shot）
思维链（Chain-of-Thought / CoT）
自动思维链（Automatic CoT）
自洽（Self-consistency）
自动提示工程师（Automatic Prompt Engineer）
生产知识提示（Generated Knowledge Prompting）
思维树（Tree of Thought / ToT)
思维图（Graph of Thoughts / GoT)
自动增强检索（Retrieval Augmented Generation / RAG)

这篇文章将介绍剩下的的方法论和框架。包括：

元认知提示（Metacognitive prompting）
逻辑思维链（Logic CoT）
ReAct提示（ReAct Prompting）
多模态CoT （Multimodal CoT）
自动推理和工具使用（Automatic Reasoning and Tool-use / ART)
思维算法（Algrithom of Thought）

请看下方标有✅的部分。

以下是它们各自的发布时间线：

自动增强技术

Metacognitive prompting

元认知提示（MP）是一种旨在提升大型语言模型（LLM）元认知能力的技术。这种方法被证明在多种场景下优于其他现有的提示技巧。MP方法包括以下几个具体步骤：

文本解析：分析并理解所给的文本。
形成判断：根据对文本的解析做出初步的评价或判断。
评价判断：对初步的判断进行评估，检查其准确性和相关性。
作出最终决策并给出理由：做出最终的决策，并提供基于理由的解释。
评估信心水平：对最终决策及其解释的信心水平进行评价和打分。

通过这一系列步骤，LLM能够展现出元认知行为，策略性地评估和管理自己的认知过程。

思维链技术

LogiCoT (combination of metacognition and CoT)

逻辑思维链（LogiCoT）是一种利用思维链（CoT）来验证推理过程的方法，通过引入逻辑来加强 CoT。CoT的推理步骤将如下图所示被审查，采用颜色编码系统：红色表示错误，蓝色象征在验证后所做的修正，绿色代表经过验证的步骤。与传统的CoT不同，在传统的CoT中错误保持未更正的状态，LogiCoT允许对错误进行细化和修订。

交互与推理技术

ReAct Prompting

ReAct提示法是一种将Reasoning（推理）与Action（执行）相结合于语言模型中的新框架。通过这种方法，大型语言模型（LLM）能够交替产出推理过程和针对特定任务的执行步骤，使系统能够在制定、维护和调整行动计划的同时，与外界环境互动，引入更多信息进行深入推理。

通过ReAct，模型能够与外部工具互动，获取更多信息，以形成更加可靠和基于事实的答案。比如，在问答任务中，模型将依次展开解决方案的路径（思考与执行）。其中，“思考”阶段助力模型理解问题并确定下一步行动；“执行”则是模型可以采取的具体操作，从允许的操作集中选取。“观察”则指模型与之互动的外部环境反馈，例如搜索引擎的结果。简言之，ReAct 能够在推理过程中辅以信息检索，同时利用推理定位下一步的检索目标。

以ReAct方法提出的示例问题：

问题：科罗拉多造山带东部扩展区的海拔范围是多少？
思考 1：我需要先搜索科罗拉多造山带，确定东部扩展区的位置，再查询该地区的海拔范围。
行动 1：搜索[科罗拉多造山带]

ReAct还应用于LangChain的CSV Agent和BabyAGI的执行Agent等工具。LangChain的CSV Agent利用ReAct框架与CSV格式数据互动，主要用于解答问题。

BabyAGI 的执行Agent则展示了另一种使用 ReAct 框架的Agent，它是一套能够独立处理问题，通过多次迭代实现目标的自治 AI Agent系统。

综上所述，ReAct提示法是结合了推理和执行功能的语言模型中的一项强大工具，它使模型能够与外界工具和环境互动，进而产生更加可靠和基于事实的答案。它已被应用于多种场景，如LangChain的CSV Agent和BabyAGI的执行Agent，帮助解决问题任务。

通过 ReAct 格式，我们可以为“思考”和“执行”阶段设计输入，并利用这种方法实际解决问题。例如，搜索等操作可以自然地作为“执行”动作被集成进来，并作为“观察”环节被融入到上下文中。

Multimodal CoT

多模态思维链（CoT）是对传统思维链方法的一次重要扩展，它通过将文本与视觉信息结合在一个双阶段框架中，目标是让大型语言模型（LLM）能够跨文本和图像等多种模式解析信息，从而提升它们的推理水平。

核心要素及其功能包括：

生成推理依据：在首个阶段，模型融合文本与图像等多模态信息，生成推理的依据，即从视觉及文本资料中解释并理解问题的上下文。
答案推导：利用第一阶段形成的推理依据，在第二阶段导出答案，通过这个依据指导模型逻辑推理，以寻找准确的答案。
实践案例：例如，在“根据这两个磁铁的图片，判断它们是相互吸引还是排斥？”的情形下，模型将同时考察图像（比如，注意到一个磁铁的北极与另一个的南极相近）和问题文本，来构建推理依据并得出结论。

影响力和应用范围：

多模态CoT已证明其在需要多模式推理的任务，如结合文本和图像的问答任务中，能够提升LLM的表现。
举个例子，一项研究显示，多模态CoT模型在包含文本和图像理解问题的ScienceQA基准上，表现优于GPT-3.5。
此外，多模态CoT还被用于提高医学成像中AI模型的准确率，通过促进不同模式图像的整合，加深了对疾病的理解，并为多模态推理设置了强有力的基准。

总结来说，多模态CoT通过使LLM能够处理并解读来自多种模式的信息，在需要多模态推理的任务上提高了性能，并在医学成像等领域发挥了实际应用价值，显著提升了它们的理解与推理能力。

Automatic Reasoning and Tool-use (ART)

自动推理与工具使用（ART）框架利用大型语言模型（LLM）自发生成推理的中间步骤，是推理加上行动（ReAct）理念发展的产物。这个理念通过结合推理与行动，极大地扩展了LLM在处理语言推理和决策任务方面的能力。

ART的核心特点和功能包括：

任务拆解：当接收到一个新任务时，ART 会从一个任务库中挑选出多步骤推理和工具使用的示例。
整合外部工具：在生成过程中，一旦需要调用外部工具，就会暂停，并在继续之前融合这些工具的输出，让模型能够从示例中学习，分解新任务，并在不需要任何预设的情况下恰当使用工具。
扩展性：ART允许人工纠正特定任务程序的错误或加入新工具，这大幅提升了在特定任务上的表现，且仅需极少的人工干预。

在LangChain中的应用：

LangChain是一个开源框架和工具集，旨在应用LLM，通过ART可以构建出既能推理又能记忆的AI Agent。
举个例子，一个AI代理可以被分配到理解其任务和角色，合理化地提出问题，使用互联网搜索等工具，暂停来获取人类的反馈，并记录其进展，而不会忘记先前的知识，这一过程会重复进行，直到达到结束的条件。
在诸如担任初级招聘者的代理的实际应用场景中，ART在LangChain中证明了它的实用性。

LangChain库为实现LLM和ReAct提示提供了实用的方法，通过示例展现了如何在LangChain库的帮助下实际进行ReAct提示，并展示了如何在解答问题的思维过程中，通过搜索、评估结果、决策下一步行动，并持续这一过程直到问题得到解决。

总结而言，ART极大地提升了LLM的功能，让它们能够执行复杂的推理任务，并与外部工具互动来完成超出其本身能力范畴的计算任务。它在LangChain中尤为有用，可用于创建具备推理、记忆保持以及与人类和外部工具互动的高级AI Agent。ART的一大特色是利用LLM从任务库和工具库中生成推理步骤。

Algorithm of Thoughts（AoT）

思维算法（AoT）既是一种架构，也是一种引导技术，代表了一种通过减少计算量和缩短时间来优化思维树（ToT）的先进方法。它通过把问题细分成更小的子问题，并有效运用深度优先和广度优先搜索等算法，达到了其效率。AoT结合人脑思维方式和算法逻辑，引导模型沿着算法推理的路径前进，使其在更少的查询中探索更多的可能性。这一特点使得AoT成为处理需要复杂逻辑推断任务的有力工具，也是训练人工智能的一个前景光明的新方法。

AoT的核心要素包括：

子问题链接：AoT通过将子问题的解决方案串联起来，形成了一个连贯的思维链。
算法推理路径：它设计用来通过算法逻辑引导模型，使得在减少查询的同时，能够探索出更多的创意，特别适合那些需要复杂推理的任务。
人类认知与算法逻辑的融合：

AoT借鉴了人类解题的策略，即通过头脑风暴产生多个解决方案，评估后选择最佳方案，并以此类推方式训练大型语言模型（LLM）。
利用算法评价LLM生成的“初步思考”或步骤，确保了这些初步步骤的正确性，进而增加了得出正确解决方案的可能性。

例如，在解决“所有狗都有四条腿”这样的问题时，AoT会评估如下初步步骤：

所有狗都是哺乳动物。
所有哺乳动物都有四条腿

AoT对这些步骤进行评估，通过证据来支持或反对第一步，然后对第二步进行验证。

AoT不仅效率高、节省资源，通过利用AI的自我学习能力，减少了对数据和计算力的需求，有望成为一种改变游戏规则的AI训练技术，使AI变得更加智能和类人化。

更进一步，AoT通过提升想法的探索性、加强推理能力，并优化LLM的效率和类人推理能力，有可能彻底改变人工智能的面貌。它开辟了让AI更具创造性、适应性和准确性的新路径。

总的来说，AoT为大型语言模型提供了一个模仿人类思维解决问题的强大工具，通过结合人类的认知和算法逻辑，提高了解决问题的效率。它不仅使模型在减少查询的同时探索更多想法成为可能，也成为了处理复杂推理任务和作为一种有希望的新型AI训练方法的宝贵资源。

写在结尾

每种提示技巧都有其特有的强项，可根据具体的任务场景进行选择。技术的挑选需基于任务的特定需求，模型的功能以及可用资源。

挑选最适合的提示方式需依据任务的特殊要求，对于那些需要复杂解决方案和逻辑推理的任务，像AoT提示或ToT提示这类方法可能更适宜；若任务需融合多种信息类型，那么多模态CoT提示可能更加有利；而对于那些需与外部工具或环境互动的应用来说，ART 提示或 ReAct 提示或许更加有效；最终的选择应紧密结合任务本身的特定需求和约束条件。

最后，这篇是关于提示工程方法论与框架的最后一篇文章，感谢您的阅读。

推荐新闻

RAG系列04：使用ReRank进行重排序

本文介绍了重排序的原理和两种主流的重排序方法：基于重排模型和基于 LLM。文章指出，重排序是对检索到的上下文进行再次筛选的过程，类似于排序过程中的粗排和精排。在检索增强生成中，精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后，文章得出结论：使用重排模型的方法轻量级、开销较小；而使用 LLM 的方法在多个基准测试上表现良好，但成本较高，且只有在使用 ChatGPT 和 GPT-4 时表现良好，如使用其他开源模型，如 FLAN-T5 和 Vicuna-13B 时，其性能就不那么理想。因此，在实际项目中，需要做出特定的权衡。

LangGPT论文：面向大语言模型的自然语言编程框架（中文版）

大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而，对于非AI专家来说，制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。

（三）12个RAG痛点及其解决方案

痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据痛点11:后备模型痛点12:LLM安全

（二）12个RAG痛点及其解决方案

痛点5:格式错误痛点6:不正确的特异性痛点7:不完整痛点8:数据摄取可扩展性

（一）12个RAG痛点及其解决方案

痛点1:内容缺失痛点2:错过关键文档痛点3:不在上下文中——整合策略的局限性痛点4:没有获取正确内容