我要投稿

推理模型与rag搜索结合！介绍5个马上能上手的小项目

发布日期：2025-06-12 22:25:49 浏览次数： 1802

作者：程序锅锅

微信搜一搜，关注“程序锅锅”

在推理模型与rag搜索结合方向，为大家介绍5个易于上手的小项目。

第一个项目探讨如何在rag的过程中引入思考模块，缓解rag错检遗漏的问题。

第二个项目探讨如何扩展推理模型的思维链过程，边思考边搜索来解决问题。

第三个项目探讨用强化学习训练方法优化推理模型规划、反思工具的能力。

第四个项目会基于第二、三项目中的技术，探讨成熟的搜索工具。

第五个项目会在推理的过程中引入图片等多模态数据。

在搜索的过程中引入反思

传统的 RAG（检索增强生成）模式相对刻板，通常是在完成搜索后，借助相似性搜索筛选出部分内容，依据匹配程度重新排序，挑选出看似可靠的信息片段传递给大型语言模型（LLM）以生成答案。这种方式高度依赖重排序模型的性能，如果模型表现不佳，就极易遗漏关键信息，甚至将错误信息提供给 LLM，致使生成的答案不尽人意。

r1-reasoning-rag 项目则另辟蹊径，借助推理模型（Large reasoning models,LRM）的强大推理能力，将原本固定的筛选过程转变为灵活可变的动态机制，他们称之为“代理检索”。在这一机制下，AI仿若拥有自主意识，不仅能够主动探寻缺失的信息，还能在检索过程中不断优化自身策略，形成良性循环，从而为 LLM 提供更为精准的内容。

例如，当被问及“《封神演义》中哪吒的师祖是谁”这一复杂问题时，该项目不会像传统 RAG 那样盲目检索。首先，基于 DeepSeek-R1 的推理能力，它会对问题进行拆解分析，理解到需要先明确哪吒的师父，再进一步探寻其师父的师父。

接着，从知识库中检索出 “哪吒的师父是太乙真人” 这一信息。此时，智能体并不会满足于此，而是通过反思模块意识到还缺少“太乙真人的师父（即哪吒的师祖）” 的关键信息。

于是，它自动再次检索，直到获取到完整准确的答案——元始天尊。在这个过程中，智能体不断地根据已有信息进行反思和调整检索策略，确保最终答案的完整性和准确性。

项目地址：https://github.com/deansaco/r1-reasoning-rag

Search-o1利用推理模型边思考边搜索

大型推理模型（LRMs），如OpenAI-o1，在长步骤推理方面展现出了令人惊叹的实力。然而，在推理过程不断延长时，知识储备不足的问题逐渐凸显，频繁引发不确定性，甚至导致错误的产生。

Search-o1 创新性地提出了一个框架，首次将代理检索增强生成（RAG）机制与大型推理模型（LRMs）的推理过程紧密集成，赋予模型自主补充知识的强大能力。在推理进程中，当LRMs遇到不确定的知识点时，Search-o1 能够自动触发检索操作，从外部知识源获取相关信息，扩展模型思维链。

同时，考虑到检索到的文档往往篇幅冗长，可能包含大量冗余信息，项目专门设计了Reason-in-Documents模块。该模块能够对检索到的文档进行深度剖析，精简并提炼出关键信息，并将其巧妙地注入推理链中，确保推理过程的连贯性不受影响。

论文实验结果很好，但是我建议主要学习利用推理模型边思考边检索的思路。

项目地址：https://github.com/sunnynexus/Search-o1

Search-R1框架引入强化学习增强推理能力

前两个项目项目在推理与搜索结合方面已经取得了显著成果，但它们均未引入训练机制。Search-R1 项目则在此基础上进行了大胆创新，引入强化学习技术，为智能体的发展注入了新的活力。

通过强化学习，Search-R1 能够让智能体在与环境的持续交互过程中不断学习和成长。智能体每执行一个动作，都会根据环境反馈的奖励信号来判断该动作的优劣。如果动作带来了积极的结果，智能体将获得正奖励，其执行该动作的倾向会增强；反之，如果动作导致了不良后果，智能体将得到负奖励，执行该动作的概率会降低。在这样的机制下，智能体逐渐学会如何更加高效地反思自身行为，优化对工具的调用策略。

项目地址：https://github.com/PeterGriffinJin/Search-R1

WebThinker 项目

WebThinker巧妙融合了Search-o1和Search-R1的相关思想，成功突破了仅停留在理论研究阶段的局限，初步实现了在搜索中应用。

当你向AI提问OpenAI 有哪些模型，它们之间的差异是什么，AI不仅能给出答案，还能自主搜索最新信息、深度浏览网页内容，并生成结构完整的研究报告。在官方演示中，WebThinker仅通过用户的问题输入，就能启动 "思考 - 搜索 - 撰写" 的闭环流程，最终输出包含模型技术细节、应用场景对比、发展历程分析的专业报告，整个过程无需人工干预。

不同于传统的单次搜索，WebThinker 开发了智能网页交互模块：