IM-RAG：解锁AI内心独白，多轮检索增强生成新突破！

发布日期：2024-10-27 08:18:37 浏览次数： 3238

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

尽管检索增强生成（Retrieval-Augmented Generation, RAG）方法能够利用外部知识和大型语言模型（Large Language Models, LLMs）输出来增强生成质量，从而减少幻觉和应对静态知识库的局限性，但其在应用中仍面临多项挑战：例如，与不同能力的信息检索（Information Retrieval, IR）系统集成的灵活性有限、多轮检索的可解释性不足、以及缺乏端到端优化机制。

为了解决这些问题，我们提出了IM-RAG——一种以LLM为核心的新型方法。IM-RAG通过学习内部独白（Inner Monologues, IM）来连接IR系统与LLMs，从而支持多轮检索增强生成。

在内部独白过程中，LLM作为主要推理模型（推理器），通过提出查询以从Retriever中收集更多信息，或基于对话上下文提供最终答案。此外，我们引入了Refiner模块来提升Retriever的输出质量，有效桥接了推理器与IR模块之间的能力差距，增强了多轮信息交换的效果。

整个IM过程通过强化学习（Reinforcement Learning, RL）优化，其中包含进度跟踪器以奖励中间步骤，并在答案预测环节进行监督微调（Supervised Fine-Tuning, SFT）。在HotPotQA数据集上的实验结果表明，IM-RAG不仅实现了业界领先的性能，还在内部独白中展现出更高的灵活性和出色的可解释性。

这张图展示了 IM-RAG（内心独白-检索增强生成）系统的处理流程。图中，一个用户提出了一个复杂的问题，IM-RAG的核心组件“推理器（Reasoner）”首先尝试回答。如果推理器认为当前信息不足以得出答案，它将作为一个“提问者（Questioner）”生成查询，并交由“检索器（Retriever）”去知识库中查找相关信息。

在检索到的文档返回后，“精炼器（Refiner）”会进一步过滤和提升信息的相关性，将最重要的信息标注后再传回推理器。推理器会检查信息是否足够充分，不足时会继续迭代，生成新的查询并再次检索。整个流程会持续数轮，直到推理器认为信息足够齐全，最终转为“回答者（Answerer）”，提供最终答案。

此外，图中还展示了一个“进度跟踪器（Progress Tracker）”，帮助记录每一步的进展和中间步骤，为用户提供解释性线索，使人类能够清晰了解系统推理过程及其结论的依据。

这张图展示了 IM-RAG 框架的概览，包括四个主要组件：推理器（Reasoner）、检索器（Retriever）、精炼器（Refiner） 和 进度跟踪器（Progress Tracker）。每个组件在多轮检索增强生成中各司其职，协同完成复杂问答任务。

过程描述：

推理器（Reasoner）：负责主要的推理任务，在不同阶段切换角色。作为“提问者（Questioner）”，它生成查询并调用检索器，获取相关的外部文档；作为“回答者（Answerer）”，它基于对话上下文和文档生成最终答案。
检索器（Retriever）：根据推理器的查询从数据库中检索相关文档，并将结果传递给精炼器进行进一步处理。
精炼器（Refiner）：对检索到的文档进行重排序和改写，以提高信息的相关性，并将前几条最相关的文档（Top-K）返回给推理器，帮助推理器在后续推理过程中使用。
进度跟踪器（Progress Tracker）：通过打分系统来跟踪任务进展。在强化学习（Reinforcement Learning，RL）阶段，进度得分用作奖励，帮助推理器调整检索和回答策略。最终回答的生成则在监督微调（Supervised Fine-Tuning，SFT）阶段完成，使用真实答案和优化的 IM（内部独白）查询-回答对作为微调样本。