我要投稿

爆改RAG！用“自动提问”让你的AI检索像开挂一样精准

发布日期：2025-07-21 12:02:11 浏览次数： 1544

作者：许泽宇的技术分享

微信搜一搜，关注“许泽宇的技术分享”

❝
你还在用传统RAG？那你就OUT了！今天，咱们聊聊如何用“自动生成问题”给RAG加点猛料，让你的AI检索和问答能力直接起飞！

一、前言：RAG的烦恼与突破

RAG（Retrieval-Augmented Generation）是AI问答界的“卷王”，但它也有自己的烦恼：

检索不准：用户问一句，RAG检索一堆不相关的内容，AI答得云里雾里。
上下文迷失：文本切块后，AI常常“只见树木不见森林”。
信息稀释：原始文档太长，切块后每块信息密度低，检索难度大。

怎么办？
别急，今天我们要聊的“Document Augmentation RAG with Question Generation”方案，能让RAG像打了鸡血一样精准高效！

二、核心思路：让AI自己“出题”，检索更懂你

1. 传统RAG的套路

文档切块
每块生成embedding
用户提问，embedding比对，检索相关块
生成答案

问题：
用户的问题和文档块的内容经常“对不上号”，导致检索不准。

2. 新玩法：自动生成问题，双管齐下

每个文档块，AI自动生成一组“可回答的问题”
问题和块都生成embedding，全部丢进向量库
用户提问时，不仅和文档块比，还和这些“AI自问自答”的问题比
检索时，既能找到相关内容块，也能找到“类似问题”，大大提升召回率和相关性

一句话总结：
让AI自己“出题”，你问啥它都能精准“对号入座”！

三、全流程拆解：从PDF到“开挂”RAG

1. 文档导入与切块

PDF文本提取：用PyMuPDF（fitz）一页页扒文本
智能切块：比如每1000字符一块，重叠200字符，防止信息断层

def chunk_text(text, n, overlap):
    chunks = []
    for i in range(0, len(text), n - overlap):
        chunks.append(text[i:i + n])
    return chunks

Tips：
重叠切块能防止“关键信息被切断”，检索更稳！

2. 自动生成问题：让AI“自问自答”

对每个文本块，调用大模型（如Llama-3）生成5个“只用本块内容就能回答”的问题
问题要简明、覆盖关键信息

def generate_questions(text_chunk, num_questions=5):
    # 用大模型生成问题，格式化为编号列表
    ...

效果：
每个块都多了5个“AI自问自答”的问题，极大丰富了检索入口！

3. Embedding生成：文本块+问题全都向量化

文本块和问题都用同一embedding模型（如BAAI/bge-en-icl）转成向量
统一丢进向量库

def create_embeddings(text):
    # 调用API生成embedding
    ...

4. 自建“简易向量库”：NumPy搞定

用NumPy存储所有向量、原文、元数据
支持cosine similarity检索

class SimpleVectorStore:
    def add_item(self, text, embedding, metadata=None):
        ...
    def similarity_search(self, query_embedding, k=5):
        ...

优点：
轻量、易扩展，适合原型和小规模应用。

5. 文档处理全流程

提取文本
切块
每块生成embedding
每块生成问题，问题也embedding
全部丢进向量库

def process_document(pdf_path, ...):
    ...

结果：
比如一本42块的PDF，最终向量库里有165条（块+问题），检索入口大大增加！

四、检索与问答：AI终于“对题作答”了！

1. 语义检索：问题和内容“双保险”

用户提问，先embedding
在向量库里找最相似的k条（可能是块，也可能是AI自动生成的问题）

def semantic_search(query, vector_store, k=5):
    ...

亮点：
如果用户问的和AI自动生成的问题很像，直接命中！
如果问得很新颖，也能通过内容块召回相关信息。

2. 组装上下文：相关块+问题，信息全覆盖

检索结果里，先拼接内容块
再把“命中的问题”对应的原始块也加进来
形成一个“超级上下文”，喂给大模型

def prepare_context(search_results):
    ...

3. 生成答案：只答上下文里的内容

系统提示词要求“只根据上下文回答，答不上就说不知道”
保证答案可溯源、可信

def generate_response(query, context):
    ...

4. 效果实测：Explainable AI案例

用户提问：
What is 'Explainable AI' and why is it considered important?

检索结果：

命中多个相关内容块
命中AI自动生成的类似问题（如“Explainable AI的主要目标是什么？”）

生成答案：

❝
Explainable AI (XAI) is a field that aims to make AI systems more transparent and understandable by providing insights into how AI models make decisions. This is essential for building trust and accountability in AI systems, as it enables users to assess their fairness and accuracy. XAI techniques are crucial for addressing potential harms, ensuring ethical behavior, and establishing clear guidelines and ethical frameworks for AI development and deployment.

评测得分：0.8
（内容准确，覆盖主要点，但还可补充细节和例子）