微信扫码
添加专属顾问
我要投稿
探索药品监管合规的新利器,QA-RAG模型如何以高准确性优化行业流程。 核心内容: 1. QA-RAG模型在药品监管合规中的应用与优势 2. 生成式AI和RAG方法在聊天机器人中的结合与进步 3. QA-RAG模型性能评估及其在制药行业的潜在影响
From RAG to QA-RAG: Integrating Generative AI for Pharmaceutical Regulatory Compliance Process
药品行业的监管合规要应对复杂且繁琐的指导方针,通常需要大量的人力资源。为了应对这些挑战,我们的研究引入了一种聊天机器人模型,该模型利用生成式AI和检索增强生成(RAG)方法。该聊天机器人旨在搜索与用户查询相关的指导文件,并根据检索到的指导方针提供答案。鉴于此领域对高可靠性的内在需求,我们提出了问答检索增强生成(QA-RAG)模型。在比较实验中,QA-RAG模型在准确性方面显著优于所有其他基线,包括传统的RAG方法。本文详细介绍了QA-RAG的结构和性能评估,强调其在药品行业及其他领域的监管合规潜力。我们已将我们的工作公开发布,以供进一步研究和开发。
https://huggingface.co/datasets/Jaymax/FDA_Pharmaceuticals_FAQ
https://arxiv.org/abs/2402.01717
近期生成式AI的进展显著增强了聊天机器人的能力。这些由生成式人工智能驱动的聊天机器人在各个行业中的应用正在被探索[Bahrini等人,2023年;Castelvecchi,2023年;Badini等人,2023年],其中制药行业是一个显著的关注领域。在药物发现领域,最近的研究表明,由生成式人工智能驱动的聊天机器人在推进药物发现方面可以发挥重要作用[Wang等人,2023年;Savage,2023年;Bran等人,2023年]。这样的进步不仅简化了发现过程,而且为聊天机器人提出新的研究想法或方法铺平了道路,增强了研究的协作性。在医疗保健领域,聊天机器人在提供个性化支持方面被证明特别有效,这可以带来更好的健康结果和更有效的治疗管理[Ogilvie等人,2022年;Abbasian等人,2023年]。这些聊天机器人可以提供及时的用药提醒、传递有关潜在副作用的信息,甚至协助安排医生咨询。
在制药行业中,另一个可以充分利用生成式人工智能的关键领域是确保符合监管指南的要求。对于行业从业者来说,应对像美国食品药品监督管理局(FDA)和欧洲药品管理局(EMA)等机构提供的复杂而广泛的指南通常是一项令人生畏且耗时的任务。大量的指导方针,加上其复杂的细节,可能使公司难以快速找到并应用相关信息。这通常导致成本增加,因为团队花费宝贵的时间浏览庞大的指导方针资料库。最近的一项研究强调了遵守监管指导方针的财务影响[Crudeli, 2020]。研究发现,合规工作可能消耗掉中型或大型制药制造运营预算的25%。鉴于这些挑战,制药行业需要一种更高效的方法来导航和解释监管指导方针。大型语言模型(LLMs)可以有助于解决这个问题。然而,尽管它们经过了广泛的预训练,LLMs在获取未包含在其初始训练数据中的知识时常常遇到固有的限制。特别是在高度专业化和详细的制药监管合规领域,很明显这种特定领域的知识并未完全包含在训练材料中。因此,LLMs可能不足以准确回答该领域的问题。
检索增强生成(RAG)模型作为连接这一差距的桥梁而脱颖而出。它不仅利用了这些模型的内在知识,还从外部来源获取额外信息以生成响应。如[Wen等人,2023年]和[Yang等人]的工作所示,RAG框架能够做到这一点。[2023年]的研究展示了如何巧妙地将丰富的背景资料与答案相结合,确保对查询进行全面准确的回应。这些研究突显了RAG在多种应用中的多功能性,从复杂故事的生成到定理的证明。
这篇论文提出了QA-RAG模型用于解决制药行业监管合规问题。具体来说,
整体结构:QA-RAG模型利用微调后的LLM代理提供的答案和原始查询来检索文档。一半的文档通过微调后的LLM代理提供的答案获取,另一半通过原始查询获取。然后,系统对检索到的文档进行重新排序,只保留与问题最相关的文档。
文档预处理和相似性搜索:使用密集检索方法(如Facebook AI Similarity Search, FAISS)来提取文档。文档通过OCR技术转换为文本,并分割成多个块。使用LLM嵌入器对文档进行嵌入。
双轨检索:结合微调后的LLM代理的答案和原始查询进行文档检索。这种方法不仅扩大了搜索范围,还捕捉了更广泛的相关信息。
微调过程:使用FDA的官方问答数据集进行微调。选择了ChatGPT 3.5- Turbo和Mistral-7B作为基础LLM模型。微调过程中使用了LoRA技术来高效地调整模型参数。
重新排序:使用BGE重新排序器对检索到的文档进行重新排序,评估每个文档与查询的相关性,并保留相关性最高的文档。
最终答案生成:使用ChatGPT-3.5- Turbo模型作为最终答案代理,通过少样本提示技术生成最终答案。
在QA-RAG模型的开发和应用中,我们强调其作为医药领域专业人士的补充工具的作用。虽然该模型提高了导航复杂指南的效率和准确性,但其设计目的是增强而非取代人类的专业知识和判断。
用于训练和评估模型的数据集包括来自美国食品药品监督管理局(FDA)和国际人用药品注册技术协调会(ICH)的公开可访问文档,并遵守所有适用的数据隐私和安全协议。
这篇论文提出的QA-RAG模型在制药行业监管合规领域展示了其有效性。通过结合生成式AI和RAG方法,QA-RAG模型能够高效地检索相关文档并生成准确的答案。该模型不仅提高了合规过程的效率和准确性,还减少了对人类专家的依赖,为未来在制药行业及其他领域的应用奠定了基础。未来的研究应继续评估和改进该模型,以应对不断变化的数据和行业实践。
问题1:QA-RAG模型在文档检索过程中如何利用生成式AI和RAG方法?
QA-RAG模型采用了双轨检索策略,结合了生成式AI和RAG方法。具体步骤如下:
问题2:在QA-RAG模型中,微调后的LLM代理在文档检索和答案生成中的作用是什么?
问题3:QA-RAG模型在实验中表现如何,与其他基线方法相比有哪些优势?
总体而言,QA-RAG模型通过结合生成式AI和RAG方法,显著提高了制药行业监管合规的效率和准确性,减少了对人类专家的依赖。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-07
精|RAG与推理协同全面综述:背景、目的、模式、实现、评估、实践、趋势
2025-05-07
图像也能通过 RAG 加入知识库啦
2025-05-07
RAGflow分片策略与文档解析器
2025-05-07
RAG 中的语义分块:实现更优的上下文检索
2025-05-07
从复杂文档到AI秒懂的高质量数据:EasyDoc解析实战指南
2025-05-07
Golang 基于 Redis 实现文档向量索引与检索系统(RAG)
2025-05-07
使用Ragas自动化评测RAG知识问答系统的各项表现
2025-05-07
Social RAG群助手AI , Matrix虚拟社交网络AI评论点赞
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-05
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22