微信扫码
添加专属顾问
我要投稿
AI入门必读:掌握读懂AI文献的关键方法,从基础概念到实际应用一网打尽。 核心内容: 1. 人工智能的基本定义与分类(狭义AI与广义AI) 2. AI在医疗领域的五大应用类别解析 3. 关键术语解释与概念梳理
一、什么是人工智能?
人工智能是一种变革性技术,能够完成通常需要人类智能的任务。人工智能也是一个跨学科的研究领域,涵盖了计算机科学、心理学、语言学和哲学等多个学科。医疗领域的人工智能大致分为以下两类:
狭义人工智能:指能够识别大型数据集中的模式的机器学习算法。狭义人工智能在解决基于文本、语音或图像的分类和聚类问题方面非常有用,擅长执行精确定义的单一任务(例如,下棋)。
广义人工智能:指能够推理、辩论、记忆和解决问题的人工智能应用。广义人工智能有时被称为人类水平的人工智能,因为它被认为具有接近人类的认知能力。
尽管狭义人工智能已经在医疗实践中产生了重大影响,包括诊断、风险预测和预后、图像解读、手术实践(例如,用于腹腔镜胆囊切除术的计算机视觉)和药物发现,但目前很少有广义人工智能在临床实践中发挥效益的有力实例。此外,在医疗保健中也很重要但超出了本文范围的是人工智能的许多行政功能(例如,语音识别产品允许用户口述信件并实时看到其被输入)。
从计算的角度来看,人工智能在医疗和保健中的各种用途可以分为以下五个广泛的类别:
预测:使用历史数据预测未来事件的可能性;
分类:例如,将图像分为正常或异常;
关联:找出变量之间的潜在关系以增强预测;
回归:评估一个变量与一系列其他可能相关变量之间的关系强度;
优化:主要是行政任务。
下列出了一些关键术语和定义,我们将在下面进一步阐述其中一些内容。
人工智能(AI):存在各种定义。其中一个是IBM的定义:“使计算机和机器能够模拟人类的学习、理解、解决问题、决策、创造力和自主性的技术。”
AI系统:包含AI的系统(例如,由AI算法及其支持的软硬件平台组成)。
大数据:通常定义为具有极高容量、速度和多样性的数据,需要特殊技术和分析方法才能将其转化为价值。大数据具有八大关键特性:多样性高、速度快、真实性挑战、工作流程各方面挑战、计算方法挑战、提取有意义信息挑战、数据共享挑战和寻找人类专家挑战。某些大数据的定义仅使用容量(例如,如果log(n×p)≥7)。
校准(和失校准):校准指模型预测概率与实际事件可能性的一致性程度。失校准指这种情况的一致性较差。失校准的一个例子是低估(即模型的预测值持续低于真实值)。这可能发生在训练集有偏差、使用的模型过于简单或用于训练模型的特征不能代表潜在现象的情况下。
ChatGPT:聊天生成预训练变换器,一种商业数字助手(例如,可通过智能手机应用访问)。ChatGPT本质上是一个对话式的基于文本或图像的界面,连接到GPT架构的大语言模型。它提供免费基础版本和更高级的月费版本。
云计算:通过互联网按需提供计算资源(如存储和基础设施)。
计算机处理能力:计算机处理信息的能力或其处理信息的速度。
对话式AI:复制人类在对话中智能的AI系统。例如,ChatGPT中使用的对话形式。
数据泄露:当用于训练的数据部分泄露到测试或校准数据集中时发生。这种泄露会导致模型在训练集(有时还包括验证数据)上表现出高性能,但在实际应用中表现不佳。
深度学习:一种使用人工神经网络分层结构的机器学习类型。这些网络由输入层、隐藏层和输出层组成,通过前向和后向传播等方法处理信息,以调整权重并优化性能。网络拓扑包括卷积、递归和变换器架构。例如,AlphaFold2(AF2)是一个可以从氨基酸序列预测蛋白质三维结构的AI系统。该系统彻底改变了药物发现,并使其设计者在2024年获得了诺贝尔化学奖。
数据投毒:一种恶意攻击,对手故意在训练数据集中引入有害或误导性的数据。
公平性:AI中的公平性旨在确保AI系统公平对待个人和群体,不进行无根据的歧视或偏见。公平性检查是用于识别和减轻AI模型中偏见的过程和方法。
生成式AI:AI技术的一个子集,通过学习大量训练数据的模式和结构来生成新内容,如文本、图像、音乐、语音、视频或代码。
预期AI用途:AI系统预期的用途(例如,针对的医疗状况、患者和用户群体以及使用环境)。
大型语言模型(LLMs):使用计算AI算法以文本数据为输入生成类似于人类产生的语言的AI模型。
大型多模态模型(LMMs):具有接受一种或多种类型数据输入(例如,文本、视频和图像)并生成不局限于输入数据类型的多样化输出的AI模型。
机器学习:计算机科学的一个领域,模型和算法从数据中学习模式,而不是被编程以规则进行操作。例如,CHICA(通过计算机自动化改善儿童健康)等系统使用机器学习原理和专家系统方法来改善儿科护理。
强化学习:一种机器学习类型,智能体通过试错与环境互动,通过优化成本或奖励函数来优化其决策。这种方法在训练AI智能体在复杂环境中做出决策方面非常强大,例如优化医疗治疗计划(例如,为糖尿病患者个性化胰岛素剂量)和开发适应性医疗策略。
监督学习:一种机器学习类型,算法在带有标签示例的数据集上进行训练,方法包括线性回归(例如,根据年龄、体重和药物治疗剂量预测血压)或逻辑回归(例如,根据检查结果和家族史确定患者患糖尿病的可能性)。这些标签为每个输入提供了正确的输出或目标变量。例如,疾病风险预测、诊断成像分类和个人化治疗建议。
无监督学习:一种机器学习类型,算法在没有标签的数据集上进行训练。算法发现数据中的模式、结构或关系,方法包括聚类(例如,根据相似疾病特征对患者进行分组)或降维(例如,降低基因表达数据的复杂性以进行分析)。应用示例包括疾病聚类(例如,识别乳腺癌的亚型)、早期医疗状况检测和药物发现。
零样本学习:算法在未在训练中遇到的数据上执行任务或进行预测的能力,无需额外的微调。
二、大数据
大数据指的是大型或复杂的数据集,若没有先进的计算能力,将无法进行分析。由于队列研究的规模和需要分析的变量数量增加,计算不能再在桌面电子表格上进行。云计算和计算机处理能力的快速增长是AI革命的关键推动力。
一个大数据平台的例子是Epic在美国开发的Cosmos。Cosmos是最大的电子健康记录数据数据库,整合了2.89亿患者的住院和门诊记录,为研究人员提供了超过148亿次临床就诊的数据(包括72亿次面对面就诊),覆盖37700个诊所和1626家医院。所得到的数据集涵盖了广泛的数据,包括个人特征、生命体征、药物治疗、实验室结果、程序、诊断、就诊、患者生成的数据以及特定临床领域的数据,以及健康的社会决定因素的数据。
三、机器学习:当前的诸多益处
机器学习是AI的一个子类型;模型或算法从数据中学习模式,而不是被编程以规则进行操作。机器学习的各种类型(其中一些有重叠)包括监督学习、无监督学习、强化学习、深度学习和零样本学习。全面概述机器学习在医疗保健中的应用超出了本文的范围,但诸如数据泄露、低估和数据投毒等问题可能导致机器学习应用中的临床重大错误。
例如,泄露导致模型性能被高估和可重复性降低。一个经典例子是将患者的识别号码作为预测因子包括在内。机器学习算法将学习,例如,类似的肿瘤医院识别号码具有更高的癌症概率。此外,与任何临床研究一样,如果机器学习研究是在有偏见的样本上进行的(例如,比患有该疾病的更广泛患者群体更少病患或更不复杂),发现将不可信,并可能导致伤害。
四、生成式AI及其对未来的潜力
生成式AI,在其他地方有更详细讨论,包括大型语言模型(LLMs)和大型多模态模型(LMMs)。LLM AI系统使用从文章、书籍和其他基于文本的网络内容中训练出的数十亿词的算法来生成语言(“说话”)以模仿人类。LMMs做同样的事情,但接受多种类型的数据输入,如文本、图像、音频和视频,有时还有其他数据类型(例如,传感器数据)。
LMMs生成的多样化输出不一定与输入到算法的数据类型相关(例如,输入到算法中的图可以生成文本,反之亦然)。LLMs和LMMs在医学中越来越多地被用于检索知识、支持临床决策、总结关键发现以及对患者进行分流,例如。一篇最近的论文总结了LLMs在多大程度上“编码”了临床知识,包括它们的局限性和对未来研究的建议。LLMs和LMMs的一个固有问题是它们倾向于“幻觉”(例如,引用不存在的论文)和推荐不符合患者最佳利益的行动方案。
一个LLM,ChatGPT(聊天生成预训练变换器),已经通过了美国医学执照考试,并被用于回答常见患者问题(例如,关于结肠镜检查的研究)。由于它们以对话格式运行,LLMs和LMMs让人感觉像是与人类或类人代理进行互动(即,你提问,LLM回复,你解释为什么回复不太符合你的期望,等等)。
此外,由于这些技术旨在发现和考虑上下文,而不仅仅关注输入的文本,模型可能能够根据不同的患者个性和健康素养水平调整它们所说的内容(以及如何说)。这些模型还能够以患者偏好的语言进行回应。
因此,生成式AI可能能够克服前几代数字健康应用的一些脆弱性,并且(有些矛盾的是)有助于使患者与系统之间的界面人性化。尽管在英国约20%的全科诊所已经在尝试使用ChatGPT等工具,但在撰写本文时,讨论的是患者潜在的好处,而不是实际的好处。
五、健康AI应用中的伦理挑战
从AI系统中产生什么取决于它是如何构建的,这让人想起常见的谚语“垃圾输入,垃圾输出。”在低质量数据上训练的AI系统很可能会产生偏见。低质量数据的例子包括因缺失问题(即关键个人或临床变量未被记录)、代表性不足(即AI系统所针对的关键人群完全缺失或在样本中被过度少量代表)或误分类(即数据反映了关于患者或其他用户不正确假设)而受到负面影响的数据。
这种方法意味着AI系统可能在那些在训练数据集中被更充分和更准确地反映的人身上表现更好(即更准确地识别或排除状况),而在那些未被代表或在训练数据集中被不准确地反映的人身上表现更差。随着时间的推移,这种有偏见的表现可能伤害那些已经代表性不足和被边缘化的群体。
减轻偏见后果具有挑战性,因为偏见也可能出现在AI开发管道的其他部分,而不仅仅是在训练数据集中,使其难以检测其原因。例如,偏见可能在模型设计期间由于选择或加权不同变量引入,或在实施后由于与社会偏见的互动(即人类临床医生的无意识或有意识的歧视)或由于数据集或人群漂移(即在一线护理中使用的输入数据发生变化或目标人群的构成发生变化)而引入。因此,在AI系统部署后持续监控其性能和影响是重要的。
AI的伦理影响超越了偏见。无论其数据处理能力如何,机器仍然是机器,没有语义理解,医学和保健的某些方面(例如,同情、安慰和护理)将可以说是永远需要人类输入。正如Hicks等人关于生成式AI所争论的,“模型在重要方面对其输出的真实性漠不关心。”这一观察结果是为什么AI应用在很大程度上被设计为由具有专业培训的人类使用,而不是取代人类。
使用AI应用需要人类的品质,如谦逊和审慎。在最近的一篇综述中,Messeri和Crockett讨论了AI的四种愿景:AI作为神谕、AI作为仲裁者、AI作为量化者和AI作为替代者。作者警告说,这些各种角色是认知陷阱,可以产生各种幻觉:解释深度幻觉(假设AI产生的解释比实际情况更深刻);探索广度幻觉(假设AI模型已经覆盖了与问题相关的所有可能假设,而实际上只覆盖了有限的假设);以及客观性幻觉(假设AI模型已经从无处产生了一个无偏见的观点,而实际上它反映了,并可能放大了关于主题的已发表文献中的各种偏见)。
由于所有这些原因,伦理考量和人权必须是AI工具设计、开发和实施的核心。世界卫生组织已经认可了六项关键伦理原则,用于医疗保健中的人工智能使用(框4),并还审查了生成式AI模型治理这一复杂主题。
六、世界卫生组织(WHO)关于医疗保健中人工智能使用的六项伦理原则
根据世界卫生组织关于医疗保健中AI的伦理和治理指南的总结:
1. 保护人类自主性:人类应控制医疗决策,人们应了解AI在其护理中的使用方式(包括如何保护他们的隐私和保密性)。
2. 促进人类福祉、安全和公共利益:AI不应伤害人类。AI技术的设计者应遵守安全、准确性和有效性的监管要求。
3. 确保透明度、可解释性和可理解性:AI技术应能被开发者、医疗专业人员、患者、用户和监管者“根据向他们解释的能力”所理解。
4. 促进责任和问责:患者和临床医生应评估AI技术的发展和部署。这种方法应包括为受到基于算法决策不利影响的个人和群体提供质疑和补救的机制。
5. 确保包容性和公平性:用于健康的AI应被设计为“鼓励尽可能广泛、适当和公平的使用和访问,不论年龄、性别、收入、种族、民族群体、性取向、能力或在人权法下受保护的其他特征”。AI技术不应将偏见编码到对可识别群体(特别是已经少数群体化的群体)不利的程度(即公平性)。
6. 促进响应性和可持续性的AI:所有AI参与者(设计者、开发者和用户)应“持续、系统和透明地”在实际使用期间评估AI应用。可持续AI系统有两个重要方面:首先,其环境后果应最小;其次,其对工作场所的影响,包括工作场所中断、医疗工作者培训和潜在的失业问题,应由政府和公司处理。
七、关于人工智能决策支持算法的十个问题
在评估描述AI决策支持系统的论文时需要考虑的10个问题。这些问题中的许多对其他类型的AI工具有更广泛的适用性。在准备这10个问题时,我们使用了多个AI质量工具和报告指南。
关于报告基于人工智能(AI)决策支持系统的论文的十个问题
1. 研究设计是什么,(排除AI部分)它是否符合方法学严谨性的既定标准? 与所有研究一样,AI系统的研究应采用系统性方法,在足够大且具有代表性的样本上进行,以产生可信的发现。
例如,如果随机对照试验适合研究问题,是否进行了随机对照试验(如果不是,非随机设计的局限性是什么)?患者样本是否反映了更广泛的疾病人群?如果包括了干预组和对照组,两组在基线时是否在年龄分布、性别平衡和疾病严重程度等方面具有可比性?评估者是否对分配组别设盲?AI研究通常有两个关键的参与者组:接受AI算法训练的患者和使用AI系统的用户(考虑他们的基线特征以及他们如何熟悉AI系统)。这种情况类似于手术创新研究,其中患者和操作者特征都很重要并且应被报告。
2. AI系统预期的临床用途是什么(即,它打算支持哪些决策,由谁来支持,目的是什么?)明确技术的目的。例如,AI系统可能针对疑似乳腺癌的患者,由放射科医生使用,目标是提高乳腺癌的检出率并减少假阳性筛查。
3. AI系统旨在支持哪种类型的计算任务? 计算任务可能是以下一种或多种:预测(例如,估计个人发生特定健康结果的风险)、分类(例如,估计疾病或风险状态的存在或不存在)、关联(例如,药物发现或特定健康状况的新风险因素)、回归(估计患者在特定风险因素下患某种疾病的可能性)或优化(例如,提高行政任务的效率)。
4. 使用了哪种AI系统以及如何使用? 寻找对AI系统的描述,尤其是其版本、底层算法、支持硬件和软件(如果相关)。哪些数据被用作AI系统的输入?研究团队如何获取数据?将数据输入AI系统的方法是什么?进行了哪些预处理以及如何处理缺失或低质量数据?最后,AI系统的输出是如何呈现给用户的?信息的展示方式影响用户与AI系统的互动。
5. AI系统在临床工作流程或路径中的位置在哪里? 用户何时看到AI系统信息很重要。当用户在并行阅读模式下看到AI系统建议(即,同时接收其他信息)时,可能会出现锚定偏差(一种认知偏差)。在二次阅读模式下,用户在对患者做出决定后看到AI系统建议,并根据新信息重新评估其初始决定。
6. 对AI系统可能的错误采取了什么方法?作者是否报告并讨论了任何安全问题或伤害实例? 应考虑并报告三大类错误和故障:算法错误(例如,AI系统未能检测到女性数字乳腺X光片中的所有癌症);支持软件或硬件的故障(例如,AI系统因数据提取问题未能产生建议);用户错误(例如,临床医生输入了不准确的患者细节或将AI系统应用于其未设计的医疗指示)。安全评估是一个持续的过程,发生在临床研究之前、期间和之后,因为AI系统在临床环境中的实施后可能会发现新的风险或伤害。机器学习应用实施后的主要风险与数据集漂移(或人群漂移)相关,导致性能随时间下降,这可能难以检测。
7. 作者如何处理人为因素? 人为因素(也称为人体工程学,即技术的设计特征如何影响人类是否以及如何与之互动,包括诸如情境意识、工作量和技术压力等因素)可以成就或破坏医疗保健中的AI系统。论文应描述并寻求理解和解释关键的人机技术互动。
8. 作者对训练和验证其AI系统所使用的数据和代码的透明度如何? 作者应分享对数据的描述(例如,数据集的数据表),并附上注释以解释每个元素的作用,以便读者即使未接受AI技术方面的培训也能跟上这一部分。代码应可获得(例如,在补充文件中)。
9. 作者如何处理AI系统的伦理使用? 作者应描述,例如,他们使用了哪些技术来检测、量化和减轻AI系统算法输出中的偏见(例如,通过算法公平性,进行调整以纠正偏见);他们如何处理隐私和安全,以及他们的方法是否适合和足以用于所使用的数据类型;以及是否包含面向患者的信息和解释,以及这些信息是否足以让患者做出知情决策。
10. 研究是否纳入了多种类型的专家? 临床使用的AI系统研究需要的不仅仅是技术专家。由AI科学家、临床医生和患者合作伙伴组成的多样化团队最适合作为应对“知识和知道者单一文化”的风险。临床医生和患者应积极参与旨在临床护理的任何AI工具的构建和测试。例如,在问题(2)中,询问患者和临床医生是否参与了确定是否将此任务委托给算法是很重要的。
即使基于上述的问题进行的结构化批判性评估确认AI研究是严谨的且其发现值得信赖(内部有效性),另一个问题是,AI技术或干预措施在(临床)实践中是否有效(外部有效性)?就诊的患者可能与训练算法的患者样本不具可比性,使用技术的员工可能与研究中的员工在重要方面有所不同。
八、结论
AI在医疗保健中具有巨大潜力。然而,AI并非万能药,AI研究中存在广泛的偏见风险。基于关于AI决策支持算法的10个问题的结构化方法将帮助临床医生区分稳健且临床重要的AI研究与那些增加不平等、造成伤害而非帮助且临床价值有限的研究。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-25
2025-04-05
2025-04-05
2025-03-21
2025-04-14
2025-04-13
2025-04-29
2025-05-22
2025-03-30
2025-04-13