微信扫码
添加专属顾问
我要投稿
工业AI领域突破:Agentic RAG技术实现无标注流程知识提取,让机器读懂复杂技术手册。 核心内容: 1. 工业技术文档流程知识提取的四大核心挑战 2. Agentic RAG技术从基础到进阶的三步迭代方案 3. 无需标注或微调的通用型系统构建方法与优势
在工业设备维护、工程操作指导等领域,传统技术手册多以非结构化文本、图表混合形式存在,难以直接被人工智能系统或机器人解读。将这些“ legacy 维护手册”转化为机器可读取的结构化流程,成为提升工业效率的关键需求——而精准的流程知识提取(Procedure Knowledge Extraction)技术,正是实现这一目标的核心路径。本文基于新加坡管理大学(SMU)商业信息技术硕士项目中“生成式AI与大语言模型”课程的研究项目,探讨如何通过“智能体增强生成式检索(Agentic RAG)”技术,解决传统流程知识提取的痛点,构建无需数据集标注或模型微调的通用型提取系统。
从设备维护手册等技术文档中提取分步流程,是工业AI领域公认的难题。即便采用基于生成式检索(RAG)的大语言模型(LLM) pipeline,也常因文档本身的复杂性陷入瓶颈。具体而言,技术文档的“提取阻力”主要源于以下四点:
同类设备、操作动作或技术参数常以多种表述呈现。例如,“螺栓紧固”可能被描述为“螺丝拧紧”“紧固件固定”等,导致LLM难以识别语义关联。
工具清单、安全警告、步骤依赖关系常分散在文档不同章节,甚至跨多个文档。例如,某设备拆卸步骤中未明确提及“需先关闭电源”,但该前提可能仅在“安全须知”章节中出现,传统RAG易遗漏此类关键隐含信息。
技术文档的写作风格存在天然缺陷:一方面,表述不规范(如省略主语、简写术语);另一方面,流程的强逻辑性(如“先拆卸A部件才能取出B部件”)难以被LLM直观理解,易出现步骤顺序错乱。
流程描述中常穿插表格、示意图、工程图纸,传统文本提取技术无法关联“图像内容”与“文字步骤”。例如,手册中某步骤提及“安装图3所示部件”,但LLM无法解析图像中的部件位置,导致提取结果不完整。
传统RAG方案的应对方式——为每个新领域标注数据集或微调模型——不仅成本高,且难以适配工业场景中多样的技术文档类型。因此,构建“无需标注、无需微调”的通用型系统,成为流程知识提取的核心目标。
本项目通过“三步迭代”,逐步优化流程知识提取能力:从基础的视觉语言模型RAG(VLM-RAG),到多模态增强RAG,最终升级为Agentic RAG(智能体增强RAG),实现模块化、高适应性的提取架构。
针对老旧手册的扫描版PDF(仅图像格式,无文本信息),项目首先构建了VLM-RAG原型,核心流程如图2所示:
测试与局限:在“Airfix玩具车组装手册”测试中,该pipeline在“识别任务”(如统计文本指令数量、零件编号)表现良好,但在“理解与总结任务”中暴露缺陷:图像搜索仅通过“余弦相似度”匹配文本描述,无法解析图像特征,导致相似零件被错误标注(如将“零件4”误标为“零件5”)。
针对基础VLM-RAG的不足,项目通过三项核心升级,构建多模态增强RAG(流程如图4所示):
部署本地Florence-2模型,将图像中的关键信息转换为结构化文本(如“图3:左侧为部件A,右侧为固定螺栓,需先拧下2颗螺栓再取下部件A”),使图像信息可与文本步骤一同参与向量计算,解决“图像-文本脱节”问题。
设计专属提示模板,强制提取结果包含技术手册的关键要素:
基础RAG与增强RAG均采用“单体架构”:代码模块耦合紧密,流程固定,新增功能(如网页搜索、多轮交互)需大规模修改代码。为解决这一问题,项目引入LangGraph构建多智能体架构(Agentic RAG),将提取任务拆解为多个专业智能体的协作,核心架构如图5所示。
为验证增强RAG(含多模态特征)的有效性,项目采用两种评估方法:RAGAS(生成式检索评估框架)与GEval(LLM作为评判者),针对5类不同技术手册(如发动机维护、电气设备安装)进行测试。
在嵌入模型对比中,Qwen3(视觉语言模型)在“图表密集型手册”中表现显著优于CLIP:Qwen3的RAGAS忠实性得分比CLIP高23%,原因在于其经过视觉-文本联合训练,能更好地关联图像中的工程细节与文本步骤。
项目最关键的发现是——生成式检索(RAG)的入门门槛低,但要实现工业级流程知识提取,需突破三大难关:
构建“设备-部件-步骤”知识图谱,模型化步骤间的依赖关系(如“拆卸部件A→需先拆卸部件B→需使用工具C”),解决隐含步骤遗漏问题。
开发流数据通信架构,支持智能体状态实时更新(如“RAG智能体已检索到部件A的拆卸步骤”,可实时同步给Dynamic Planner Agent,调整后续执行计划),提升多轮交互的流畅性。
当前智能体的流程由人工编码,未来可让智能体基于历史提取结果自评估(如“上次遗漏安全警告,本次需优先检索‘警告’章节”),实现“无需人工干预”的自适应优化。
流程知识提取的终极目标,是为工业场景提供“可信赖、可解释”的结构化流程。Agentic RAG架构通过模块化智能体,实现了提取过程的透明化(如“步骤1来自RAG智能体,基于手册P12”)与灵活性(适配不同类型技术文档),但在高风险工业场景(如航空发动机维护)中,仍需“人机协同”——因LLM与智能体的决策存在非确定性,人类需作为最终审核者,确保流程的安全性与准确性。
未来,随着知识图谱、动态智能体管理等技术的融入,Agentic RAG将进一步突破“多模态关联”“跨文档提取”的瓶颈,真正实现“从 legacy 手册到智能流程”的自动化转化,为工业AI的落地提供关键技术支撑。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-06-05
2025-06-06
2025-06-05
2025-06-05
2025-06-20
2025-06-20
2025-06-24
2025-07-15
2025-06-24
2025-06-05