卡内基梅隆大学重磅，用这条Prompt让LLM递归内省，多轮交互中自我改进

发布日期：2024-08-24 22:40:31 浏览次数： 3791

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

都说AGI已经来了，但我们和最聪明的LLM交互中很难体会到这一点，尤其是多轮对话的跑焦，话题偏移等问题，或许并没有让我们获得智能进步的愉悦体验，这一点在过去的一年中体验尤甚。

近日，来自卡内基梅隆大学、UC伯克利大学等机构的研究团队提出了一种名为RISE(Recursive IntroSpEction)递归内省的创新方法，成功让语言模型习得了自我改进的技能。这种能力对于构建真正智能的AI系统至关重要，它能够使模型能够像人类一样，通过反复思考和修正来优化自己的输出，在文末的交互中，你可以清晰的看到RISE递归内省方法带来GPT-4的输出改进。

图片由xiumaodalle生成

传统的语言模型训练方法主要聚焦于提升模型在单轮对话中的表现。而RISE的创新之处在于它教会了语言模型如何在多轮交互中不断改进自己的回答。

RISE：从单轮到多轮的智能跃迁

RISE的核心思想是将单轮问题转化为多轮马尔可夫决策过程(MDP)。在这个过程中，模型不仅要给出答案，还要学会如何评估自己的回答并做出相应的修正。这种方法使得模型能够在面对复杂问题时，通过多次尝试逐步接近正确答案，而不是仅仅依赖于单次输出。

MDP

这个概念在我的文章里多次出现，是时候为大家解释一下了。马尔可夫决策过程（Markov Decision Process，MDP）是一种数学框架，用于模拟在不完全可预测的环境中做出决策的情境。MDP 提供了一种形式化的方法来描述决策过程中的环境、决策者的行动选择、每个行动的结果以及这些结果的概率性质。MDP 主要由四个元素组成，以机器人导航为例：

1. 状态（States）：系统可能所处的所有状态的集合，机器人在不同位置的坐标。

2. 行动（Actions）：在给定状态下决策者可以选择的所有行动的集合，机器人可以向北、南、东、西移动。

3. 转移概率（Transition Probabilities）：执行某个行动后，从当前状态转移到另一个状态的概率，由于地面可能滑或有障碍，机器人向某个方向移动可能不会按预期成功。

4. 奖励函数（Reward Function）：执行某个行动并由此产生状态转移后，决策者接收到的即时奖励，机器人到达目标位置得正分，碰到障碍得负分。

目前高级的机器人导航以及复杂情形不确定情况下的决策，都在用MDP作为算法。它可以帮助决策者在不确定性条件下制定最优策略，以期最大化长期的累积奖励。这里先简单了解一下，下文还有GPT-4基于RISE的高质量输出。

RISE的实现过程可以分为以下几个关键步骤：

1. 问题转化：将单轮问题转换为多轮MDP，其中每一轮的状态包含了问题、之前的回答历史以及可能的环境反馈。

定义状态空间：包含问题、之前的回答历史以及可能的环境反馈
定义动作空间：模型在每一轮给出的回答
定义奖励函数：根据回答的正确性给出奖励值

2. 数据收集：

使用当前模型生成多轮对话数据
通过自蒸馏或外部专家模型提供改进建议
构建数据集D={(s_t，a_t， r_t， s_{t+1})}

3. 策略优化：

采用加权回归方法优化模型参数
目标函数：max_θ E[Σ log π_θ(a_t|s_t) * exp(r_t/τ)]
τ为温度参数，用于调节奖励的影响程度，根据每个回答的奖励值来优化模型参数。

4. 迭代训练：

重复步骤2-3，不断提升模型的自我改进能力
每次迭代后评估模型性能，决定是否继续训练

这种方法的独特之处在于，它不仅关注最终的正确答案，还重视模型如何从错误中学习并改进。这种过程模拟了人类的学习方式，使得AI系统能够在面对新问题时表现得更加灵活和智能。我们看一下研究者是如何展示这一过程的：

上图直观地展示了RISE算法的工作流程。从左到右，我们可以看到算法如何从单轮响应逐步过渡到多轮交互，最终通过多数投票机制产生优化后的输出。这个过程充分体现了RISE算法的核心理念——通过递归自省不断提升模型的回答质量。

1、RISE: Recursive Introspection 部分：

Turn 1: 展示了LLM (大型语言模型) 接收初始prompt并生成第一轮响应y1的过程。

Turn 2: 展示了LLM如何利用Turn 1的响应、反馈和原始prompt来生成改进的响应y2。这体现了算法的递归特性。

2、Inference 部分：

展示了在推理阶段，系统如何收集多轮对话中的所有响应（y1, y2, ..., yn）。最后通过多数投票（Majority Vote）机制来决定最终输出。

RISE的惊人效果：数据说话

研究团队在多个benchmark数据集上对RISE进行了测试，结果令人振奋。以下是简要分析：

1. 在GSM8K数据集上，经过RISE训练的Llama2-7B模型在5轮交互后的准确率提升了17.7%，远超其他方法。

2. 对于更具挑战性的MATH数据集，RISE也展现出了显著的改进效果，准确率提升了4.6%。

3. 即便是在没有外部反馈的情况下，RISE训练的模型也能通过自我反思不断提升答案质量。

4. RISE的效果会随着模型规模的增大而进一步提升，这表明该方法具有良好的可扩展性。

这些结果清晰地表明，RISE不仅能够提升模型的整体性能，更重要的是，它赋予了模型自我改进的能力。这种能力在面对复杂和开放性问题时尤为重要，因为它允许模型通过多次尝试来逐步接近最优解。

RISE：为什么它如此有效?

RISE之所以能够取得如此显著的效果，主要得益于以下几个关键设计：

1. 多轮交互学习：通过将问题转化为多轮MDP，RISE使得模型能够学习到如何根据之前的尝试来改进答案。这种方法比单纯的单轮训练更接近人类的问题解决过程。

2. 加权回归优化：RISE采用的加权回归方法能够有效地利用不同质量的回答，使得模型既能从成功案例中学习，也能从失败中汲取经验。

3. 自蒸馏机制：通过让模型学习如何改进自己的答案，RISE实现了一种自我提升的循环，这在很大程度上提高了模型的泛化能力。

4. 迭代训练策略：通过多轮迭代训练，RISE能够不断强化模型的自我改进能力，使得效果随着训练的进行而持续提升。

这些设计共同作用，使得RISE训练出的模型不仅在单轮表现上有所提升，更重要的是获得了持续自我改进的能力。这种能力对于构建真正智能的AI系统来说是至关重要的。

RISE的潜在应用

RISE的成功不仅是学术上的一次突破，它还为AI在实际应用中的进一步发展开辟了新的可能性。以下是一些潜在的应用场景：

1. 智能客服系统：利用RISE，客服AI可以在与用户的多轮对话中不断优化自己的回答，提供更精准、更有帮助的信息。

2. 教育辅助工具：RISE训练的AI可以根据学生的反馈不断调整解释方式，为每个学生提供个性化的学习体验。

3. 创意写作助手：作家可以使用RISE训练的AI来协助创作，AI能够根据作家的反馈不断改进文本内容。

4. 科研辅助系统：在复杂的科研问题上，RISE可以帮助AI系统通过多轮推理来逐步接近问题的解决方案。

5. 战略决策系统：在复杂多变的不确定环境下，RISE可能帮助决策者通过模拟MDP的可能性获得帕累托累计优势的最佳决策方案。

这些应用场景只是冰山一角。随着RISE技术的进一步发展和完善，我们可以期待看到更多令人兴奋的AI应用出现在各个领域。

如果基于本文算法写一个系统级的system prompt，还以上文的MDP举例，GPT-4页面交互下，可能的运行结果如下图：

这条基于递归内省(RISE)的SYSTEM PROMPT是一个系统级的提示，可以用于你的多轮对话系统或者某个复杂的分析系统，三天后我会放到群里。你可以自己修改一些参数，比如可以修改为自动迭代5轮，8轮等等，藉此观察你所选LLM的主题聚焦能力以及在这个问题上的知识深度；还可以修改SYSTEM PROMPT置信度参数（信心等级）的触发条件，逼近MDP的奖励概率。

RISE可能的局限性

尽管RISE展现出了巨大的潜力，但它仍然存在一些局限性需要在未来的研究中加以解决：

1. 计算资源需求：RISE的多轮训练过程需要消耗大量计算资源，这可能会限制它在某些场景下的应用。

2. 数据质量依赖：RISE的效果在很大程度上依赖于训练数据的质量，如何确保数据的多样性和代表性是一个重要问题。

3. 错误累积风险：有一利也会有一弊，在某些触达边缘的临界情况下，模型也可能会在多轮改进过程中累积细微的错误，而人类并不擅于发现这些细微隐蔽的错误，从而导致最终结果偏离正确方向。鉴于此，我就不写代码了，多轮对话中高度负责任的专家参与可能会减少错误累积风险。

4. 泛化能力的进一步提升：虽然RISE已经展现出了不错的泛化能力，但如何让模型在更广泛的领域中应用自我改进能力仍需进一步研究。