我要投稿

基于智能体增强生成式检索（Agentic RAG）的流程知识提取技术研究

发布日期：2025-08-29 09:34:30 浏览次数： 2394

作者：大模型之路

微信搜一搜，关注“大模型之路”

在工业设备维护、工程操作指导等领域，传统技术手册多以非结构化文本、图表混合形式存在，难以直接被人工智能系统或机器人解读。将这些“ legacy 维护手册”转化为机器可读取的结构化流程，成为提升工业效率的关键需求——而精准的流程知识提取（Procedure Knowledge Extraction）技术，正是实现这一目标的核心路径。本文基于新加坡管理大学（SMU）商业信息技术硕士项目中“生成式AI与大语言模型”课程的研究项目，探讨如何通过“智能体增强生成式检索（Agentic RAG）”技术，解决传统流程知识提取的痛点，构建无需数据集标注或模型微调的通用型提取系统。

一、流程知识提取的核心挑战

从设备维护手册等技术文档中提取分步流程，是工业AI领域公认的难题。即便采用基于生成式检索（RAG）的大语言模型（LLM） pipeline，也常因文档本身的复杂性陷入瓶颈。具体而言，技术文档的“提取阻力”主要源于以下四点：

1. 术语不一致性

同类设备、操作动作或技术参数常以多种表述呈现。例如，“螺栓紧固”可能被描述为“螺丝拧紧”“紧固件固定”等，导致LLM难以识别语义关联。

2. 隐含步骤与信息分散

工具清单、安全警告、步骤依赖关系常分散在文档不同章节，甚至跨多个文档。例如，某设备拆卸步骤中未明确提及“需先关闭电源”，但该前提可能仅在“安全须知”章节中出现，传统RAG易遗漏此类关键隐含信息。

3. 语言与逻辑特殊性

技术文档的写作风格存在天然缺陷：一方面，表述不规范（如省略主语、简写术语）；另一方面，流程的强逻辑性（如“先拆卸A部件才能取出B部件”）难以被LLM直观理解，易出现步骤顺序错乱。

4. 流程复杂性与多模态干扰

流程描述中常穿插表格、示意图、工程图纸，传统文本提取技术无法关联“图像内容”与“文字步骤”。例如，手册中某步骤提及“安装图3所示部件”，但LLM无法解析图像中的部件位置，导致提取结果不完整。

传统RAG方案的应对方式——为每个新领域标注数据集或微调模型——不仅成本高，且难以适配工业场景中多样的技术文档类型。因此，构建“无需标注、无需微调”的通用型系统，成为流程知识提取的核心目标。

二、从基础RAG到Agentic RAG的技术演进

本项目通过“三步迭代”，逐步优化流程知识提取能力：从基础的视觉语言模型RAG（VLM-RAG），到多模态增强RAG，最终升级为Agentic RAG（智能体增强RAG），实现模块化、高适应性的提取架构。

1. 第一步：基础VLM-RAG pipeline——解决“扫描版PDF”提取难题

针对老旧手册的扫描版PDF（仅图像格式，无文本信息），项目首先构建了VLM-RAG原型，核心流程如图2所示：

多模态信息提取
：将PDF每页转换为JPG图像，通过OCR提取文本，并使用Qwen 2.5VL:3b视觉语言模型生成图像摘要（如“包含发动机部件拆解图，标注3个关键零件”）；
向量存储
：使用nomic-embed-text模型将文本与图像摘要转换为向量嵌入，存储于ChromaDB数据库，并通过Doc-IDs关联向量与原始JPG图像；
语义检索与结果优化
：通过语义搜索获取Top-K相关向量片段，采用“多数投票”策略筛选最优答案。

测试与局限：在“Airfix玩具车组装手册”测试中，该pipeline在“识别任务”（如统计文本指令数量、零件编号）表现良好，但在“理解与总结任务”中暴露缺陷：图像搜索仅通过“余弦相似度”匹配文本描述，无法解析图像特征，导致相似零件被错误标注（如将“零件4”误标为“零件5”）。

2. 第二步：多模态增强RAG——提升提取精度与上下文关联性

针对基础VLM-RAG的不足，项目通过三项核心升级，构建多模态增强RAG（流程如图4所示）：

（1）两级分层分块（Two-Step Hierarchical Chunking）

先基于文档标题（使用Marker工具识别）将PDF分割为大章节（如“拆卸流程”“安装流程”）；
再通过RAPTOR（递归抽象处理树状检索）技术，将大章节拆分为“语义连贯的小片段”（如“拆卸流程”下的“拆卸部件A”“拆卸部件B”），确保每个片段包含完整的步骤上下文，避免传统“固定长度分块”导致的步骤断裂。

（2）图像 caption 生成——关联“图像”与“文本”

部署本地Florence-2模型，将图像中的关键信息转换为结构化文本（如“图3：左侧为部件A，右侧为固定螺栓，需先拧下2颗螺栓再取下部件A”），使图像信息可与文本步骤一同参与向量计算，解决“图像-文本脱节”问题。

（3）混合检索策略——兼顾语义与关键词匹配

最大边际相关性（MMR）
：在检索时平衡“相关性”与“多样性”，减少冗余片段，避免重复提取同一步骤；
BM25与 reciprocal 排序融合（RRF）
：将传统关键词检索（BM25）与语义检索结合，通过RRF融合两种检索结果。例如，当查询包含“M8螺栓”时，BM25可精准定位含该术语的片段，补充语义检索可能遗漏的技术术语。

（4）定制化“少样本提示”（Few-Shots Prompting）

设计专属提示模板，强制提取结果包含技术手册的关键要素：

安全标记（如“警告：操作前需断电”）；
验证步骤（如“安装后需检查部件间隙是否小于0.5mm”）；
闭环流程（如“拆卸部件A后，后续需包含部件A的安装步骤”），避免出现“只拆不装”的不安全流程。

3. 第三步：Agentic RAG——实现“模块化、自适应”提取架构

基础RAG与增强RAG均采用“单体架构”：代码模块耦合紧密，流程固定，新增功能（如网页搜索、多轮交互）需大规模修改代码。为解决这一问题，项目引入LangGraph构建多智能体架构（Agentic RAG），将提取任务拆解为多个专业智能体的协作，核心架构如图5所示。

（1）核心智能体角色与功能

智能体（Agent）	核心职责	解决的关键问题
流程控制器（Agent Process Controller）	接收用户查询，分配任务给对应智能体，管理多轮交互逻辑	避免单体架构的流程僵化，支持“技术问题”与“通用问题”的差异化处理（如通用问题触发网页搜索，技术问题触发RAG检索）
RAG智能体（RAG Agent）	执行核心检索：查询ChromaDB，应用MMR、BM25-RRF策略，返回带来源引用与图像链接的结果	确保检索结果的相关性与完整性，同时提供“可溯源”依据（如“步骤1来自手册P12图5”）
手册验证智能体（Manual Checker Agent）	确认查询对应的技术手册：识别查询中提及的手册名称，若存在歧义（如“发动机维护手册”有2个版本），提示用户选择	避免检索错误手册导致的提取偏差
查询分析智能体（Query Analyzer Agent）	解析查询意图：提取实体（如“部件A”“拆卸步骤”）、判断复杂度（如“简单查询：零件数量”“复杂查询：完整拆解流程”），拆分复杂查询为子问题	解决“查询表述模糊”问题，如将“如何修设备”拆分为“设备型号→故障类型→对应维修步骤”
动态规划智能体（Dynamic Planner Agent）	为复杂查询生成执行计划：确定智能体调用顺序（如“先调用Query Analyzer→再调用Manual Checker→最后调用RAG”），支持步骤并行/串行执行	提升复杂流程提取的效率，如“同时检索拆卸步骤与工具清单”
网页搜索智能体（Web Search Agent）	通过Tavily API检索互联网信息：补充手册中缺失的实时内容（如“某部件的最新替代型号”）	解决传统RAG“知识过时”问题，适配工业设备的更新迭代

（2）Agentic RAG的核心优势

模块化开发
：团队成员可独立开发某一智能体（如A负责Query Analyzer，B负责Web Search Agent），无需关注其他模块，大幅提升开发效率；
灵活扩展
：新增功能（如“故障诊断智能体”）仅需接入Agent Process Controller，无需重构整体架构；
多轮交互能力
：支持用户追问（如“步骤3中的工具在哪里购买？”），智能体可自动触发Web Search Agent，实现“提取-补充-答疑”的闭环。

三、系统评估与关键发现

为验证增强RAG（含多模态特征）的有效性，项目采用两种评估方法：RAGAS（生成式检索评估框架）与GEval（LLM作为评判者），针对5类不同技术手册（如发动机维护、电气设备安装）进行测试。

1. 评估指标与方法

RAGAS
：无需标注数据，从“忠实性”（结果是否符合源文档）、“答案相关性”（结果是否匹配查询意图）、“上下文精准度”（检索的上下文是否必要）三个维度评分；
GEval
：采用“思维链（Chain-of-Thoughts）”评估，从“步骤准确性”“术语一致性”“警告完整性”等6个维度，按0-10分打分。

2. 关键评估结果

（1）模型选择：Qwen3优于CLIP

在嵌入模型对比中，Qwen3（视觉语言模型）在“图表密集型手册”中表现显著优于CLIP：Qwen3的RAGAS忠实性得分比CLIP高23%，原因在于其经过视觉-文本联合训练，能更好地关联图像中的工程细节与文本步骤。

（2）检索策略：MMR+BM25-RRF组合最优

单独使用MMR时，RAGAS答案相关性得分比单独使用BM25-RRF高18%，因其能减少冗余，提升结果多样性；
联合使用MMR与BM25-RRF时，GEval“术语一致性”得分比单独使用MMR高15%，因BM25-RRF可精准捕捉技术术语，补充语义检索的不足。

（3）LLM生成模型：Claude 3.7与Llama 4的差异化表现

RAGAS评分
：Claude 3.7在忠实性、相关性、精准度三个维度均优于Llama 4，因其输出更贴合源文档，减少“幻觉信息”；
GEval评分
：Llama 4在“步骤准确性”“多模态关联”上得分更高，因其OCR能力更强，可近似解析图像中的文本（如零件编号）；
结论
：Claude 3.7适合“高保真、少幻觉”的场景（如安全流程提取），Llama 4适合“需图像文本关联”的场景（如带示意图的装配步骤）。

四、经验总结与未来优化方向

1. 核心经验：“RAG易用难精”

项目最关键的发现是——生成式检索（RAG）的入门门槛低，但要实现工业级流程知识提取，需突破三大难关：

检索方式不能单一
：仅依赖向量检索无法覆盖技术文档的术语特殊性与信息分散性，必须结合关键词检索（如BM25）；
软件工程与AI同等重要
：图像与文本的关联、 pipeline 状态管理、冗余处理等工程问题，其复杂度不亚于模型选择；
查询敏感性高
：用户的提问方式直接影响检索质量（如“如何拆部件A”比“部件A怎么弄下来”的提取结果更准确），需通过Query Analyzer智能体优化查询表述。

2. 未来优化方向

（1）引入知识图谱提升步骤关联性

构建“设备-部件-步骤”知识图谱，模型化步骤间的依赖关系（如“拆卸部件A→需先拆卸部件B→需使用工具C”），解决隐含步骤遗漏问题。

（2）动态智能体状态管理

开发流数据通信架构，支持智能体状态实时更新（如“RAG智能体已检索到部件A的拆卸步骤”，可实时同步给Dynamic Planner Agent，调整后续执行计划），提升多轮交互的流畅性。

（3）智能体自优化能力

当前智能体的流程由人工编码，未来可让智能体基于历史提取结果自评估（如“上次遗漏安全警告，本次需优先检索‘警告’章节”），实现“无需人工干预”的自适应优化。

五、结语：走向可信、透明的Agentic RAG

流程知识提取的终极目标，是为工业场景提供“可信赖、可解释”的结构化流程。Agentic RAG架构通过模块化智能体，实现了提取过程的透明化（如“步骤1来自RAG智能体，基于手册P12”）与灵活性（适配不同类型技术文档），但在高风险工业场景（如航空发动机维护）中，仍需“人机协同”——因LLM与智能体的决策存在非确定性，人类需作为最终审核者，确保流程的安全性与准确性。

未来，随着知识图谱、动态智能体管理等技术的融入，Agentic RAG将进一步突破“多模态关联”“跨文档提取”的瓶颈，真正实现“从 legacy 手册到智能流程”的自动化转化，为工业AI的落地提供关键技术支撑。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业