Speculative RAG：基于多专家模型的检索增强生成方法

发布日期：2024-08-23 07:34:17 浏览次数： 2652

作者：奇点智源

微信搜一搜，关注“奇点智源”

加州大学圣地亚哥分校、谷歌等机构的研究人员提出了一种名为“推测性检索增强生成”(Speculative RAG) 的新型框架，通过利用专业领域语言模型并行生成多个答案草案，并结合通用语言模型进行评估筛选，从而在知识密集型查询处理中同时提高了准确性和效率。

论文介绍

大型语言模型（LLMs）的出现，例如在问答任务中表现出色的模型，标志着自然语言处理领域的重大进步。这些模型在海量数据集上进行训练，能够生成高度合理且符合上下文语境的回答。然而，尽管取得了成功，LLMs 在处理知识密集型查询时仍然需要帮助。具体来说，这些查询通常需要最新的信息，或者涉及模型在训练期间可能没有遇到过的冷僻事实。这种限制会导致事实性错误或产生幻觉内容，尤其是在模型被要求提供超出其存储知识范围的详细信息时。在医学或科学查询等对准确性和可靠性至关重要的领域，这个问题变得更加突出。

开发和应用 LLMs 的一个核心挑战是在准确性和处理效率之间取得最佳平衡。当 LLMs 被赋予回答需要整合来自不同来源信息的复杂查询的任务时，它们通常难以管理长上下文。随着相关文档数量的增加，推理的复杂性也随之增加，这可能会使模型有效处理信息的能力不堪重负。这种低效率会减慢响应生成速度，并增加出错的可能性，尤其是在模型必须筛选大量上下文信息以找到最相关细节的情况下。因此，开发能够有效整合外部知识、减少延迟和不准确风险的系统是自然语言处理领域的一个关键研究方向。

研究人员开发了检索增强生成 (RAG) 等方法，将外部知识源直接集成到 LLMs 的生成过程中。传统的 RAG 系统检索与查询相关的多个文档，并将它们合并到模型的输入中，以确保对主题的透彻理解。虽然这种方法已被证明在减少事实性错误方面有效，但它也带来了新的挑战。包含多个文档会显著增加输入长度，这反过来会减慢推理过程，并增加生成准确答案所需的推理复杂性。一些先进的 RAG 系统试图改进检索文档的质量，以改善提供给 LLM 的上下文信息。然而，这些方法通常只关注在充分解决相关的延迟问题后才提高准确性，而延迟问题仍然是这些模型实际应用中的一个重大瓶颈。

来自加州大学圣地亚哥分校、Google Cloud AI Research、Google DeepMind 和 Google Cloud AI 的研究人员介绍了一种称为推测性检索增强生成 (Speculative RAG) 的新方法。该框架创新性地结合了专家和通才语言模型的优势，以提高响应生成的效率和准确性。Speculative RAG 背后的核心理念是利用一个更小的专家 LM，它可以并行生成多个潜在答案草稿。每个草稿都是根据查询从不同的文档子集中创建的，以捕捉不同的视角并减少冗余。一旦生成了这些草稿，一个更大的通才 LM 就会介入验证它们。通才 LM 评估每个草稿的连贯性和相关性，最终选择最准确的一个作为最终答案。这种方法有效地减少了每个草稿的输入标记数量，在不影响答案准确性的情况下提高了响应生成过程的效率。

Speculative RAG 采用分而治之的策略，根据内容相似性将检索到的文档划分为多个子集。使用聚类技术对文档进行分组，并从每个聚类中抽取一个文档以形成不同的子集。然后，专家 LM 处理这些子集，生成答案草稿以及相应的理由。然后，通才 LM 通过根据草稿及其推理的连贯性计算置信度分数来评估这些草稿。这种方法最大限度地减少了检索到的文档中的冗余，并确保最终答案参考了多个视角，从而提高了响应的整体质量和可靠性。

Speculative RAG 的性能已经在 TriviaQA、PubHealth 和 ARC-Challenge 等各种基准测试中与传统的 RAG 方法进行了严格的比较。结果令人信服：Speculative RAG 在 PubHealth 基准测试中将准确性提高了 12.97%，同时将延迟减少了 51%。在 TriviaQA 基准测试中，该方法实现了 2.15% 的准确性提高和 23.41% 的延迟减少。在 ARC-Challenge 基准测试中，准确性提高了 2.14%，同时延迟减少了 26.73%。这些数字突出了 Speculative RAG 框架在比传统 RAG 系统更高效地提供高质量响应方面的有效性。

总之，Speculative RAG 通过战略性地结合更小、更专业的语言模型和更大、更通用的语言模型的优势，有效地解决了传统 RAG 系统的局限性。该方法能够并行生成多个草稿、减少冗余和利用不同视角，确保最终输出准确且高效。Speculative RAG 在多个基准测试中对准确性和延迟的实质性改进，突出了其在将 LLMs 应用于复杂的知识密集型查询方面树立新标准的潜力。随着自然语言处理的不断发展，像 Speculative RAG 这样的方法可能会在增强语言模型的能力和在各个领域的实际应用方面发挥至关重要的作用。