免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Baichuan-M2:百川的医疗答卷|模型解读

发布日期:2025-08-13 14:01:32 浏览次数: 1515
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

百川开源医疗大模型Baichuan-M2表现惊艳,在多项医疗指标上超越闭源巨头,单卡即可部署!

核心内容:
1. Baichuan-M2的创新架构:验证器系统与多阶段强化学习策略
2. 医疗AI发展历程:从专家系统到现代大模型的范式转变
3. 实际部署优势:4-bit量化后仅需单张RTX4090

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

低调许久的百川,开源了 Baichuan-M2,32B 专注医疗

开源协议为 Apache  2.0:可修改、可商用

从医疗榜单 HealthBench 来看,M2 上超越 gpt-oss-120b,甚至在部分指标上超越了 o3、Grok3、Gemini 2.5 Pro 等闭源巨头

单论医疗能力,仅次于 GPT-5,是开源模型中最强的

M2 的创新,大概是三点:大型验证器系统(Large Verifier System)Mid-Training 医疗领域适应和多阶段强化学习策略,在保持通用能力的同时,提升了医疗能力

在这里,还有个小事情值得一提:Baichuan-M2 这个模型,在 HealthBench 上最接近 GPT-5,,但通过 4-bit 量化后只需要 单张 RTX4090 就能部署。

下面,让我们以更系统的方式,来看看 Baichuan-M2 是怎么炼成的

本文将从核心理念、验证器系统、训练架构、实战表现、部署优化五个维度来拆解下 M2


核心理念:AI医生

传统医疗AI 可以在 USMLE 这类医疗考试中,拿到很高分数

但到了临床,却不会看病...为啥呢?这里容我先插播一段历史

在半个世纪前,第一批AI诞生,叫「专家系统」

这起源来自一个大胆的想法:既然人类专家靠经验和规则来解决问题,那我们就把所有经验&规则都写进电脑,不就等于复制了一个专家吗?

具体怎么做呢?
比如找来一位资深医生,问他:“看到什么症状会判断是感冒啊?”
医生回答:“病人发烧超过 38 度,还一直咳嗽,那就得考虑是不是感冒了。”

工程师就把这经验编成规则:
IF (发烧 > 38度 AND 持续咳嗽)
THEN (检查感冒)

基于这种思路,斯坦福在 1970 年代初开发了一套专家系统:MYCIN,用来协助医生寻找传染病治疗方案

在测试过程中,MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。

然而,尽管性能良好,但它最终未能在医院落地
现实世界根本不是靠几条规则就能搞定的:有时候,资深老大夫也说不清自己是怎么诊断的,可能就是直觉

「人有多聪明,我就写多少规则」的思路,最终被证明过于简单。

真实的临床实践是一个动态、多轮的决策过程,医生常常需要在信息不完整的情况下,综合经验、沟通技巧和伦理考量做出判断。

这里,百川希望培养一个真正的 AI医生:会主动问诊、懂得共情沟通、能权衡检查成本与诊断收益

验证器系统:临床模拟

要实现「AI医生」要怎么做?

人有多聪明,我就写多少规则 这种规则填鸭显然不行

强化学习(RL)呢?直接用在医疗领域,也水土不服

在数学领域,我们有着简洁问题、标准答案所构造的静态数据

医疗问题是复杂问题,没有标准答案

同一个症状,可能存在不同病因;同一个病因,面对不同的患者体格、病史、用药史,治疗方案也千差万别。

医疗需要动态验证:不仅要看诊断结果对不对,更要看问诊过程的思维方式对不对

但构建这个系统最大的难点在于:现实中的病人,几乎都无法准确表达自己的症状

资深医生,能轻易从患者的含糊描述中,抓住关键病因

而基于静态病例、临床指南训练的模型,很难处理这种情况

为了突破这一瓶颈,百川搭建了一套的临床模拟系统,包含两部分组成:

一、患者模拟器 (Patient Simulator)

基于海量脱敏病历、临床指南和真实医患对话,自动生成仿真患者。这些患者不再是呆板的文本,他们会表现出焦虑、恐惧,甚至会选择性地透露或隐瞒信息,极大地还原了真实问诊的复杂性

二、临床评分器 (Clinical Rubrics Generator)

在这里,百川设计了一套多维加权评估清单,对标高级医生的临床思维模式。与常规 benchmark 不同的是,这套判定不仅仅是对错判断,而是从诊断准确性、问诊逻辑、治疗方案合理性、沟通共情能力、医疗伦理等多个维度,对模型进行连续的量化打分。

在这个高度仿真的环境中:模型和虚拟患者不断交互,根据评分器的密集反馈持续优化诊疗策略模型从医学生开始开始练习,通过与无数仿真患者的互动,接收专家评审团的密集反馈,一路成长为经验丰富的医生

训练架构

Baichuan-M2 的训练采用了“三段式”架构,系统性地将知识、推理和实战能力注入模型。

一、数据配比
为了在增强医学能力的同时不损害其通用性,训练数据以 2:2:1 的比例混合了高质量医疗数据、其他通用数据和数学推理数据

二、推理注入
Baichuan M2 有着类似 DeepSeek-R1 的推理,在知识密集的文本中,团队自适应地插入了思维注释 (deep thinking notes),模拟医生在面对复杂病例时的知识关联、批判性反思和病例推演过程。

三、强化学习
在强化学习(RL)阶段,M2 采用了改进版的 GRPO (Group Relative Policy Optimization) 算法,这与 DeepSeek-V3/R1 的选择不谋而合

通过多阶段的 RL 策略,模型在“虚拟医院”中进行“科室轮转”,从基础的问诊沟通开始,逐步学习处理更复杂的诊断和决策任务

实战表现

下面是 Baichuan-M2 的测试成绩,基于 HealthBench

先穿插说一下HealthBench

这是 OpenAI 发布的一个目前最为权威的医疗测试集,有 262 名全球医生合作构建,包含了 5000 场真实的多轮医患对话,并为每一场对话都定制了由医生编写的、包含数万条细则的评分标准,来评估模型在真实临床场景下的综合能力。

在这套评测中,M2 在多个核心医疗场景中排名排名第一,包括:

  • • 急诊转诊 (Emergency Referrals): 74.6分
  • • 医疗语境理解 (Medical Context Understanding): 48.0分
  • • 医患沟通 (Communication): 68.6分

而在难度极高的 HealthBench Hard 测试集上,目前全球仅有 Baichuan-M2 和 GPT-5 的得分超过了 32 分,这充分证明了其在解决复杂医疗问题上的顶尖水平

在中国医疗场景下,M2 的优势尤为明显

以上图的肝癌案例为例,M2 能够准确依据中国的 CNLC 指南给出手术建议,而 gpt-oss-120b 则基于 BCLC 指南做出了“不可手术”的错误判断。

另外的来说,在真实的复杂病例场景中,M2 的 SOAP (主观、客观、评估、计划) 临床思维流程,其推理过程与真实医生的工作流高度一致。

部署优化

对于数据安全诉求很高的医疗模型来说,有着极高的本地化部署的诉求,要让模型在医院场景下经济、高效地运行。对此,百川的这一模型,在部署优化上做到了极致

先是跑得动:M2 通过 4-bit 权重与 8-bit KV cache 的量化方案,团队将原本近 120GB 的模型文件压缩至 24GB 以内,而精度损失控制在 2% 以内,使得单张消费级的 RTX 4090 显卡即可流畅运行。

再是跑得快:M2 通过 Eagle-3 的 MTP (Multi-token Prediction) ,模型在单用户场景下实现了 74.9% 的吞吐量提升,进一步加快了推理速度

还得都能跑:M2 不仅支持 vLLM、SGLang 等主流推理框架,还深度适配了华为昇腾 NPU,为模型的国产化部署铺平了道路

总结

各模型厂都有自己的定位,百川是主打医疗

这次的 M2-32B,算是交了一张优秀的答卷

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询