免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


基于智能体增强生成式检索(Agentic RAG)的流程知识提取技术研究

发布日期:2025-08-29 09:34:30 浏览次数: 1533
作者:大模型之路

微信搜一搜,关注“大模型之路”

推荐语

工业AI领域突破:Agentic RAG技术实现无标注流程知识提取,让机器读懂复杂技术手册。

核心内容:
1. 工业技术文档流程知识提取的四大核心挑战
2. Agentic RAG技术从基础到进阶的三步迭代方案
3. 无需标注或微调的通用型系统构建方法与优势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在工业设备维护、工程操作指导等领域,传统技术手册多以非结构化文本、图表混合形式存在,难以直接被人工智能系统或机器人解读。将这些“ legacy 维护手册”转化为机器可读取的结构化流程,成为提升工业效率的关键需求——而精准的流程知识提取(Procedure Knowledge Extraction)技术,正是实现这一目标的核心路径。本文基于新加坡管理大学(SMU)商业信息技术硕士项目中“生成式AI与大语言模型”课程的研究项目,探讨如何通过“智能体增强生成式检索(Agentic RAG)”技术,解决传统流程知识提取的痛点,构建无需数据集标注或模型微调的通用型提取系统。

一、流程知识提取的核心挑战

从设备维护手册等技术文档中提取分步流程,是工业AI领域公认的难题。即便采用基于生成式检索(RAG)的大语言模型(LLM) pipeline,也常因文档本身的复杂性陷入瓶颈。具体而言,技术文档的“提取阻力”主要源于以下四点:

1. 术语不一致性

同类设备、操作动作或技术参数常以多种表述呈现。例如,“螺栓紧固”可能被描述为“螺丝拧紧”“紧固件固定”等,导致LLM难以识别语义关联。

2. 隐含步骤与信息分散

工具清单、安全警告、步骤依赖关系常分散在文档不同章节,甚至跨多个文档。例如,某设备拆卸步骤中未明确提及“需先关闭电源”,但该前提可能仅在“安全须知”章节中出现,传统RAG易遗漏此类关键隐含信息。

3. 语言与逻辑特殊性

技术文档的写作风格存在天然缺陷:一方面,表述不规范(如省略主语、简写术语);另一方面,流程的强逻辑性(如“先拆卸A部件才能取出B部件”)难以被LLM直观理解,易出现步骤顺序错乱。

4. 流程复杂性与多模态干扰

流程描述中常穿插表格、示意图、工程图纸,传统文本提取技术无法关联“图像内容”与“文字步骤”。例如,手册中某步骤提及“安装图3所示部件”,但LLM无法解析图像中的部件位置,导致提取结果不完整。

传统RAG方案的应对方式——为每个新领域标注数据集或微调模型——不仅成本高,且难以适配工业场景中多样的技术文档类型。因此,构建“无需标注、无需微调”的通用型系统,成为流程知识提取的核心目标。


二、从基础RAG到Agentic RAG的技术演进

本项目通过“三步迭代”,逐步优化流程知识提取能力:从基础的视觉语言模型RAG(VLM-RAG),到多模态增强RAG,最终升级为Agentic RAG(智能体增强RAG),实现模块化、高适应性的提取架构。

1. 第一步:基础VLM-RAG pipeline——解决“扫描版PDF”提取难题

针对老旧手册的扫描版PDF(仅图像格式,无文本信息),项目首先构建了VLM-RAG原型,核心流程如图2所示:

  1. 多模态信息提取
    :将PDF每页转换为JPG图像,通过OCR提取文本,并使用Qwen 2.5VL:3b视觉语言模型生成图像摘要(如“包含发动机部件拆解图,标注3个关键零件”);
  2. 向量存储
    :使用nomic-embed-text模型将文本与图像摘要转换为向量嵌入,存储于ChromaDB数据库,并通过Doc-IDs关联向量与原始JPG图像;
  3. 语义检索与结果优化
    :通过语义搜索获取Top-K相关向量片段,采用“多数投票”策略筛选最优答案。

测试与局限:在“Airfix玩具车组装手册”测试中,该pipeline在“识别任务”(如统计文本指令数量、零件编号)表现良好,但在“理解与总结任务”中暴露缺陷:图像搜索仅通过“余弦相似度”匹配文本描述,无法解析图像特征,导致相似零件被错误标注(如将“零件4”误标为“零件5”)。

2. 第二步:多模态增强RAG——提升提取精度与上下文关联性

针对基础VLM-RAG的不足,项目通过三项核心升级,构建多模态增强RAG(流程如图4所示):

(1)两级分层分块(Two-Step Hierarchical Chunking)

  • 先基于文档标题(使用Marker工具识别)将PDF分割为大章节(如“拆卸流程”“安装流程”);
  • 再通过RAPTOR(递归抽象处理树状检索)技术,将大章节拆分为“语义连贯的小片段”(如“拆卸流程”下的“拆卸部件A”“拆卸部件B”),确保每个片段包含完整的步骤上下文,避免传统“固定长度分块”导致的步骤断裂。

(2)图像 caption 生成——关联“图像”与“文本”

部署本地Florence-2模型,将图像中的关键信息转换为结构化文本(如“图3:左侧为部件A,右侧为固定螺栓,需先拧下2颗螺栓再取下部件A”),使图像信息可与文本步骤一同参与向量计算,解决“图像-文本脱节”问题。

(3)混合检索策略——兼顾语义与关键词匹配

  • 最大边际相关性(MMR)
    :在检索时平衡“相关性”与“多样性”,减少冗余片段,避免重复提取同一步骤;
  • BM25与 reciprocal 排序融合(RRF)
    :将传统关键词检索(BM25)与语义检索结合,通过RRF融合两种检索结果。例如,当查询包含“M8螺栓”时,BM25可精准定位含该术语的片段,补充语义检索可能遗漏的技术术语。

(4)定制化“少样本提示”(Few-Shots Prompting)

设计专属提示模板,强制提取结果包含技术手册的关键要素:

  • 安全标记(如“警告:操作前需断电”);
  • 验证步骤(如“安装后需检查部件间隙是否小于0.5mm”);
  • 闭环流程(如“拆卸部件A后,后续需包含部件A的安装步骤”),避免出现“只拆不装”的不安全流程。

3. 第三步:Agentic RAG——实现“模块化、自适应”提取架构

基础RAG与增强RAG均采用“单体架构”:代码模块耦合紧密,流程固定,新增功能(如网页搜索、多轮交互)需大规模修改代码。为解决这一问题,项目引入LangGraph构建多智能体架构(Agentic RAG),将提取任务拆解为多个专业智能体的协作,核心架构如图5所示。

(1)核心智能体角色与功能

智能体(Agent)
核心职责
解决的关键问题
流程控制器(Agent Process Controller)
接收用户查询,分配任务给对应智能体,管理多轮交互逻辑
避免单体架构的流程僵化,支持“技术问题”与“通用问题”的差异化处理(如通用问题触发网页搜索,技术问题触发RAG检索)
RAG智能体(RAG Agent)
执行核心检索:查询ChromaDB,应用MMR、BM25-RRF策略,返回带来源引用与图像链接的结果
确保检索结果的相关性与完整性,同时提供“可溯源”依据(如“步骤1来自手册P12图5”)
手册验证智能体(Manual Checker Agent)
确认查询对应的技术手册:识别查询中提及的手册名称,若存在歧义(如“发动机维护手册”有2个版本),提示用户选择
避免检索错误手册导致的提取偏差
查询分析智能体(Query Analyzer Agent)
解析查询意图:提取实体(如“部件A”“拆卸步骤”)、判断复杂度(如“简单查询:零件数量”“复杂查询:完整拆解流程”),拆分复杂查询为子问题
解决“查询表述模糊”问题,如将“如何修设备”拆分为“设备型号→故障类型→对应维修步骤”
动态规划智能体(Dynamic Planner Agent)
为复杂查询生成执行计划:确定智能体调用顺序(如“先调用Query Analyzer→再调用Manual Checker→最后调用RAG”),支持步骤并行/串行执行
提升复杂流程提取的效率,如“同时检索拆卸步骤与工具清单”
网页搜索智能体(Web Search Agent)
通过Tavily API检索互联网信息:补充手册中缺失的实时内容(如“某部件的最新替代型号”)
解决传统RAG“知识过时”问题,适配工业设备的更新迭代

(2)Agentic RAG的核心优势

  • 模块化开发
    :团队成员可独立开发某一智能体(如A负责Query Analyzer,B负责Web Search Agent),无需关注其他模块,大幅提升开发效率;
  • 灵活扩展
    :新增功能(如“故障诊断智能体”)仅需接入Agent Process Controller,无需重构整体架构;
  • 多轮交互能力
    :支持用户追问(如“步骤3中的工具在哪里购买?”),智能体可自动触发Web Search Agent,实现“提取-补充-答疑”的闭环。

三、系统评估与关键发现

为验证增强RAG(含多模态特征)的有效性,项目采用两种评估方法:RAGAS(生成式检索评估框架)与GEval(LLM作为评判者),针对5类不同技术手册(如发动机维护、电气设备安装)进行测试。

1. 评估指标与方法

  • RAGAS
    :无需标注数据,从“忠实性”(结果是否符合源文档)、“答案相关性”(结果是否匹配查询意图)、“上下文精准度”(检索的上下文是否必要)三个维度评分;
  • GEval
    :采用“思维链(Chain-of-Thoughts)”评估,从“步骤准确性”“术语一致性”“警告完整性”等6个维度,按0-10分打分。

2. 关键评估结果

(1)模型选择:Qwen3优于CLIP

在嵌入模型对比中,Qwen3(视觉语言模型)在“图表密集型手册”中表现显著优于CLIP:Qwen3的RAGAS忠实性得分比CLIP高23%,原因在于其经过视觉-文本联合训练,能更好地关联图像中的工程细节与文本步骤。

(2)检索策略:MMR+BM25-RRF组合最优

  • 单独使用MMR时,RAGAS答案相关性得分比单独使用BM25-RRF高18%,因其能减少冗余,提升结果多样性;
  • 联合使用MMR与BM25-RRF时,GEval“术语一致性”得分比单独使用MMR高15%,因BM25-RRF可精准捕捉技术术语,补充语义检索的不足。

(3)LLM生成模型:Claude 3.7与Llama 4的差异化表现

  • RAGAS评分
    :Claude 3.7在忠实性、相关性、精准度三个维度均优于Llama 4,因其输出更贴合源文档,减少“幻觉信息”;
  • GEval评分
    :Llama 4在“步骤准确性”“多模态关联”上得分更高,因其OCR能力更强,可近似解析图像中的文本(如零件编号);
  • 结论
    :Claude 3.7适合“高保真、少幻觉”的场景(如安全流程提取),Llama 4适合“需图像文本关联”的场景(如带示意图的装配步骤)。

四、经验总结与未来优化方向

1. 核心经验:“RAG易用难精”

项目最关键的发现是——生成式检索(RAG)的入门门槛低,但要实现工业级流程知识提取,需突破三大难关:

  • 检索方式不能单一
    :仅依赖向量检索无法覆盖技术文档的术语特殊性与信息分散性,必须结合关键词检索(如BM25);
  • 软件工程与AI同等重要
    :图像与文本的关联、 pipeline 状态管理、冗余处理等工程问题,其复杂度不亚于模型选择;
  • 查询敏感性高
    :用户的提问方式直接影响检索质量(如“如何拆部件A”比“部件A怎么弄下来”的提取结果更准确),需通过Query Analyzer智能体优化查询表述。

2. 未来优化方向

(1)引入知识图谱提升步骤关联性

构建“设备-部件-步骤”知识图谱,模型化步骤间的依赖关系(如“拆卸部件A→需先拆卸部件B→需使用工具C”),解决隐含步骤遗漏问题。

(2)动态智能体状态管理

开发流数据通信架构,支持智能体状态实时更新(如“RAG智能体已检索到部件A的拆卸步骤”,可实时同步给Dynamic Planner Agent,调整后续执行计划),提升多轮交互的流畅性。

(3)智能体自优化能力

当前智能体的流程由人工编码,未来可让智能体基于历史提取结果自评估(如“上次遗漏安全警告,本次需优先检索‘警告’章节”),实现“无需人工干预”的自适应优化。

五、结语:走向可信、透明的Agentic RAG

流程知识提取的终极目标,是为工业场景提供“可信赖、可解释”的结构化流程。Agentic RAG架构通过模块化智能体,实现了提取过程的透明化(如“步骤1来自RAG智能体,基于手册P12”)与灵活性(适配不同类型技术文档),但在高风险工业场景(如航空发动机维护)中,仍需“人机协同”——因LLM与智能体的决策存在非确定性,人类需作为最终审核者,确保流程的安全性与准确性。

未来,随着知识图谱、动态智能体管理等技术的融入,Agentic RAG将进一步突破“多模态关联”“跨文档提取”的瓶颈,真正实现“从 legacy 手册到智能流程”的自动化转化,为工业AI的落地提供关键技术支撑。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询