使用大语言模型的医学文本记录实体提取流程：分析研究

发布日期：2024-10-17 20:25:01 浏览次数： 3694

作者：共读共享共思

微信搜一搜，关注“共读共享共思”

论文推介

An Entity Extraction Pipeline for Medical Text Records Using Large Language Models: Analytical Study

Lei Wang华大基因研究院（h-index：2），Ma Yinyao广西壮族自治区人民医院产科（h-index：2），Bi, Wenshuai华大基因研究院（h-index：2）

期刊：JOURNAL OF MEDICAL INTERNET RESEARCH（中科院分区TOP 2，JCR分区Q1）

标题：使用大语言模型的医学文本记录实体提取流程：分析研究

DOI: 10.2196/54580

“这是写作不可或缺的笨功夫：必须把自己投进一所监狱，每天盯着墙边的打字机达四五个小时之久，每周七天，一天也不休息。六天不行，五天也不行----三天打鱼两天晒网更不行。”

——《斯坦福写作课》

随着LLMs在自然语言处理领域的快速发展，其强大的语义理解能力为自动化文本提取提供了新的机会。然而，LLMs在实际应用中仍面临诸多挑战，例如高计算资源需求、潜在的数据安全问题以及“幻觉”现象。为了解决这些问题，本研究提出了一种模块化的LLM管道，通过概念提取、提示设计和问答模板生成等步骤，从临床文本中自动提取医学特征。

关键词：临床数据提取；大语言模型；特征性幻觉；模块化方法；非结构化数据处理

01 Smmary

1.研究动机与问题

医学文本数据中包含了病人的症状、诊断和病史等重要信息，对于了解疾病进展非常关键。传统的文本提取方法往往耗时、费力，且难以处理大规模数据。为了解决传统医学文本数据提取方法的局限性，探索使用LLMs进行该任务的可行性。如何利用大语言模型在不牺牲准确性的前提下，从非结构化的医学文本中自动提取有用的医学信息？Lei Wang等人设计了一个模块化的LLM提取管道，使用Qwen-14B-Chat和Baichuan2-13B-Chat对妊娠病例数据进行测试，并评估了模型的准确率、精度和时间消耗等指标。

2. 理论论证

（1）大语言模型能够有效从非结构化的临床文本数据中提取出有价值的医学特征。

已有研究表明，LLMs在医学文本处理领域有成功应用。Choi等人（2023）研究了如何利用大语言模型（LLM）提取乳腺癌患者的临床数据，特别是从手术病理报告和超声报告中提取信息，以支持放射治疗的临床决策。研究设计并评估了LLM生成的提示，以自动化地从非结构化文本中提取临床因素。通过与人工提取方法进行对比，验证了LLM在提取准确性、时间和成本效率上的表现。最终结果显示，LLM在节省时间和成本的同时，具有较高的准确率。

（2）模块化的LLM管道可以提高数据提取的准确性和效率。

模块化的设计能够将复杂的任务分解为多个相对独立的子任务。这种分解方式减少了每一步骤的复杂性，使每个模块专注于处理特定问题，从而减少全局任务中的误差累积。理论上，LLMs在每个子任务中可以进行更精准的文本处理，因为每个模块仅处理有限范围内的问题。这种分步处理能够减少复杂任务带来的语义歧义和信息混淆，从而提升整体提取准确性。

3.研究设计

首先从病人的入院记录和医疗病史中收集文本数据，并通过去标识化处理保护隐私。研究部署了两个大语言模型Qwen-14B-Chat和Baichuan2-13B-Chat，在隔离的GPU集群上运行，保证数据安全。然后设计了模块化的提取管道，分为概念提取、语料库准备、提示设计和问答模板生成四个步骤，利用这些步骤对医学文本进行分层处理，提取有用的医学特征。还对模型进行了量化优化，使其能够在消费级硬件上运行。最后，通过计算精确度、准确率、空值比例和时间消耗等指标评估模型性能，验证该了提取管道在临床数据提取中的有效性和可操作性。

4.实证分析

基于大语言模型的模块化管道能够高效且准确地从大规模医学文本数据中提取有价值的临床特征。结果显示该方法在不同模型（Qwen-14B-Chat和Baichuan2-13B-Chat）上表现出较高的准确性和精确度，并且经过量化优化后的Qwen模型在消费级硬件上也能够高效运行。尽管模型在某些具有语义歧义的医学问题上表现出一定的偏差，但总体上提取效果良好，尤其在处理二元化问题时，表现出高度一致性和稳定性。LLMs在医疗领域的应用不仅能够减少人工干预，还能够在一定程度上解决传统方法在处理非结构化文本时的局限性，为未来LLMs在医学数据中的应用提供了切实可行的解决方案。

5.主要贡献与收获

（1）设计了一个基于大语言模型的模块化管道，提供了一种系统化、自动化提取非结构化医学文本数据的新方法。

（2）解决了LLMs在医疗领域中的安全性问题，将模型部署在隔离的本地环境中，确保数据隐私和安全，避免了使用公共云服务进行敏感数据处理时可能面临的隐私风险。

（3）扩展了LLMs在医学领域的应用前景，使用LLMs进行临床数据提取，为未来在医疗大数据分析、智能医疗信息系统中的模型应用提供了参考，展示了LLMs在医学领域的潜力。

6.不足与改进

本文的不足如下：

（1）研究数据来源单一，研究中的原始数据完全来自一家医院。

（2）论文中仅选择了68个医学概念进行提取，可能忽略了其他潜在重要的医学特征。

（3）论文提到直接处理长文本会导致模型性能下降和时间消耗增加，尤其是在问答规模较大的情况下，LLMs容易出现性能瓶颈。

针对本文的缺点提出一些建议：

（1）可以考虑使用来自多个地区、国家或不同医疗环境的数据，进一步验证提取管道的通用性和鲁棒性。

（2）未来可以扩大概念提取的范围，纳入更多的医学概念，通过引入更多的领域专家来完善概念选择。同时，提升模型在处理复杂语义时的能力，可能通过更多的微调和训练数据增强来实现。

（3）未来可以进一步探索如何在长文本处理过程中，确保关键信息不被丢失，同时提升处理效率。

02 方法

1. 数据

文本语料库主要由两个来源汇编而成：一是中国广西壮族自治区人民医院的25,709例妊娠住院记录，二是美国妇产科医师学会和英国NICE的临床实践指南，且整个语料库均为中文。

2. 模型部署

在内网安全环境中独立部署了 2 个中国最具代表性的 LLM：Qwen-14B-Chat （QWEN）和 Baichuan2-13B-Chat （BAICHUAN）。在该环境中，服务器集群使用了 NVIDIA DGX-A100 （2×40 G） GPU 节点。QWEN 使用了 29 GB 的存储空间和 27 GB 的 GPU 内存，而百川使用了 26 GB 的存储空间和 28.9 GB 的 GPU 内存。模型基于PyTorch 2.0构建，并通过物理隔离的GPU和OpenAI、FastChat进行任务处理。

3. 提示设计

在处理整个数据集之前，对 100 个观察结果进行了初步评估，以评估模板的有效性，从而允许不断完善提示策略和方向。根据以下标准定义了一个合适的模板：（1）没有冗余内容生成，（2）一致和统一的效率，以及（3）特征幻觉的发生频率。

采用了 4 段结构，参考了 QWEN 和 BAICHUAN 的提示工程建议，如下所示：

上下文部分：定义角色和任务，提供基本理解，并为模型建立行为基线。

说明部分：概述执行步骤，使用 CoT 方法，并提供示例以确保引导模型操作。

输入数据部分：管理各种输入以满足不同的信息需求。

输出部分：指定输出格式和标准，为输出设置明确的期望值。

为避免输入偏差，QWEN 和 BAICHUAN 的提示模板保持不变，未进行任何修改。

4. 概念提取和聚合

使用设计提示词 1 的 LLM 从主诉和病史中提取所有可辨别的概念，并且仅在出现频率超过 5% 时保留概念。为了减少潜在的注意力偏倚并扩大已确定概念的范围，纳入了美国妇产科医师学会 2018 年指南和国家卫生与临床优化研究所 2019 年指南，并实施了一种基于规则的匹配方法来筛选提取不准确的概念。为了提取具有不同语义表达的概念（包括诊断、各种病史、症状、观察、干预和检查类型），当地专家手动过滤掉了结构化文本中嵌入的概念，例如日期或数字。

5. 问题生成

概念提取和聚合后，使用ChatGPT4.0 作为问题生成器来生成一组基本问题，然后由当地专家根据其在 100 次观察中的表现对其进行提炼以实现特异性，作为后续数据提取的问题模板。

6. Q&A 规模提取

为避免上下文和时间事件混淆导致错误回答（例如，将当前病史与过去的病史混淆或将患者的病史与家庭成员的病史混淆），使用两种策略预提取语料库：（1）基于问题模板的位置和（2）基于包含概念的句子。

精炼后的语料库结合相应的问题模板，指导了 2 个 LLM 的系统提取过程，形成 Q&A 量表以供进一步应用。

03 结果

1. 准确度和精密度

图1 问答空间的准确性和精确度

研究表明，Qwen-14B-Chat 和 Baichuan2-13B-Chat 在医学文本提取中的表现非常精准，QWEN 的平均准确率为 95.52%，精度为 92.93%；百川的平均准确率为 95.86%，精度为 90.08%。它们在二进制和定义明确的问题中表现出色，但在语义歧义或定义不明确的问题中表现不一致。特别是在处理特定医学概念时，两者的精度差异显著。

2. Null 比率

两种 LLM 都表现出卓越的性能，具体来说，QWEN的平均零比率为 0.02%，而 BAICHUAN的零比率略高，为 0.21%。

3.时间消耗

图2 QWEN 和 BAICHUAN 的问答（Q&A）量表耗时

对 QWEN 和 BAICHUAN 在各种 Q&A 量表上的时间表现进行了对比分析，发现 BAICHUAN 在几乎所有尺度上都始终表现出更高的时间消耗，最高可达 QWEN 的 4 倍，如下所示图 2B。

图 2A 比较了 LLM 在提取不同概念时所消耗的时间。尽管不同概念之间存在显著差异，但总体而言，LLM 在这些概念上表现出一致的性能。对于定义清晰、语料库简洁的查询，例如药物使用和既往妊娠史，所消耗的时间最少。在病历类别中，两种模型均表现出均匀稳定的性能（QWEN 和 BAICHUAN 均显示 1：3 的时间消耗比）。

4.其他研究

为了解决资源限制的情况，在研究中使用了 LLM 的量化版本来验证这种方法的适用性。使用了 QWEN 的正式发布的 INT4 版本，该模型部署在 NVIDIA RTX 3090 GPU （24 GB）上。使用上面列出的相同方法，QWEN INT4实现了更好的性能，平均准确率为97.28%，零比率为 0%。在时间消耗上，QWEN INT4为 31 秒，而 QWEN 为 47 秒，百川为 312 秒。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业