免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


医生 + AI大模型 = 诊断 “黄金搭档”?普林斯顿大学最新研究揭示人机协同医疗临床决策新范式

发布日期:2025-08-18 09:30:19 浏览次数: 1521
作者:知识图谱科技

微信搜一搜,关注“知识图谱科技”

推荐语

普林斯顿大学最新研究证明,医生与AI大模型的协同诊断准确率远超单独使用,开创医疗决策新范式。

核心内容:
1. 混合集体智能方法显著提升诊断准确率
2. AI与医生错误类型的互补性分析
3. 加权融合算法与临床验证结果

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

摘要

在高风险的医疗诊断领域,单纯依赖大型语言模型(LLMs)或人类医生都存在局限——LLMs 会幻觉、缺乏常识且有偏见;人类则受经验局限与知识覆盖面的限制。本研究提出一种混合集体智能(Hybrid Collective Intelligence, HCI)方法,将医生的临床推理与 LLM 的信息处理能力结合,对 2,133 个真实感病例(含 40,762 份医生诊断与 5 个最先进 LLM 的诊断输出)进行加权融合。结果显示,混合集体在所有专业与经验层级下的诊断准确率均显著优于人类单独、AI 单独及各自的集体形式


背景

每年美国约 79.5 万例死亡或永久伤残与诊断错误相关。尽管 LLM 在自然语言处理与多领域问答中表现出色,包括医学在内的众多场景,但它们的结构性缺陷(如幻觉、偏见、缺乏常识让其在临床高风险应用中存在安全隐患
研究表明,“集体智能”能通过不同专家独立判断的组合提升整体准确性。本研究创新地将人类专家与多个 LLM 视为“同台评审”,利用各自优势与互补性,构建混合集体智能体系。

为什么 1+1>2?关键在于错误类型的差异性:
  • 当 AI 漏诊时,医生往往能给出正确答案(尤其在复杂病例中)
  • 当医生判断失误时,AI 可能捕捉到被忽略的细节
  • 混合团队的诊断 “容错率” 显著更高
举个例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易联想到真菌感染(当地高发),而医生可能优先考虑职业相关肺部疾病,二者结合最终锁定 “组织胞浆菌病”。

研究方法

数据来源

  • Human Diagnosis Project (Human Dx)
     平台
  • 2,133 个经过执业医生审核的文本病例
  • 诊断来源:1,370 名主治医师、139 名专科培训医师、2,160 名住院医师(再加 1,037 名医学生用于补充分析)

LLM 选择

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每个模型需输出前五个最可能的诊断

融合流程

  1. 标准化处理

    将所有人类与 LLM 的原始诊断映射至 SNOMED CT 唯一 ID,统一同义词、缩写、英式/美式拼写等
  2. 加权多数投票
  • 根据训练集表现为各 LLM 赋予不同权重;所有医生共用一个权重值
  • 使用 1/r 规则 按诊断排名赋分
  • 采用加权多数投票合成最终列表
  • 交叉验证

    10 次重复五折交叉验证,确保模型泛化稳定
  • 性能指标

    • Top-1 / Top-3 / Top-5 准确率
    • 平均倒数排名(MRR)

    主要研究结果

    1. 多模型集成优于单模型

    将多个 LLM 输出组合成 AI 集体,在 Top-5 与 Top-3 准确率上均优于任何单一 LLM,并在多个专科中保持稳定领先

    2. 人机混合集体全线胜出

    • 向医生集体加入一个 LLM,可超越纯医生组
    • 向 LLM 集体加入一位医生,也能提升整体准确率
    • 即使加入表现最差的 LLM,也带来轻微提升

    3. 错误互补性是关键

    • 在 46%–51% 的病例中,医生与 LLM 对正确诊断的排名不同
    • 当 LLM 完全漏掉正确诊断时,医生在 30%–38% 的病例中能补上,大部分排在第一位
    • 这种低相关错误模式让加权投票更易推高正确诊断排名 

    主要创新点

    1. 开放性答案的自动标准化
      基于 SNOMED CT 的全文匹配与向量搜索匹配,处理了同义词、拼写差异与缩写等问题,实现精准对齐。
    2. 权重化人机投票机制
      通过 WMVE(加权多数投票)方式按历史表现分配权重,优胜者得更多表决力。
    3. 跨模态可迁移性
      方法依赖结构化知识体系,可移植至气候政策等其他开放性、高风险领域。

    未来研究方向

    • 临床实地验证
      :目前为病例小故事(vignette)测试,需转化到真实临床环境
    • 治疗影响评估
      :诊断改善是否带来治疗方案优化?
    • 偏见与公平性
      :混合集体是否能减少 AI 及人类共有的偏见?
    • Prompt 工程优化
      :Tree-of-Thought、自一致性等方法可望进一步提升表现
    • 多模态融合
      :将影像、声音等数据加入诊断流程
    • 决策支持系统化
      :研究如何在临床工作流中最佳整合,防止自动化偏见与算法厌恶

    结论

    混合集体智能不是要取代医生,而是利用人类的临床洞察与 AI 的信息整合能力互补,让医疗诊断更精准、更安全、更公平


    主要标签
    #人机协作诊断 #混合集体智能 #大型语言模型 #医疗诊断准确率提升 #错误互补性 #混合智能 #AI医生 #人机协同


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询