微信扫码
添加专属顾问
我要投稿
百川开源医疗大模型Baichuan-M2表现惊艳,在多项医疗指标上超越闭源巨头,单卡即可部署! 核心内容: 1. Baichuan-M2的创新架构:验证器系统与多阶段强化学习策略 2. 医疗AI发展历程:从专家系统到现代大模型的范式转变 3. 实际部署优势:4-bit量化后仅需单张RTX4090
低调许久的百川,开源了 Baichuan-M2,32B 专注医疗
开源协议为 Apache 2.0:可修改、可商用
从医疗榜单 HealthBench 来看,M2 上超越 gpt-oss-120b,甚至在部分指标上超越了 o3、Grok3、Gemini 2.5 Pro 等闭源巨头
单论医疗能力,仅次于 GPT-5,是开源模型中最强的
M2 的创新,大概是三点:大型验证器系统(Large Verifier System)、Mid-Training 医疗领域适应和多阶段强化学习策略,在保持通用能力的同时,提升了医疗能力
在这里,还有个小事情值得一提:Baichuan-M2 这个模型,在 HealthBench 上最接近 GPT-5,,但通过 4-bit 量化后只需要 单张 RTX4090 就能部署。
下面,让我们以更系统的方式,来看看 Baichuan-M2 是怎么炼成的
本文将从核心理念、验证器系统、训练架构、实战表现、部署优化五个维度来拆解下 M2
传统医疗AI 可以在 USMLE 这类医疗考试中,拿到很高分数
但到了临床,却不会看病...为啥呢?这里容我先插播一段历史
在半个世纪前,第一批AI诞生,叫「专家系统」
这起源来自一个大胆的想法:既然人类专家靠经验和规则来解决问题,那我们就把所有经验&规则都写进电脑,不就等于复制了一个专家吗?
具体怎么做呢?
比如找来一位资深医生,问他:“看到什么症状会判断是感冒啊?”
医生回答:“病人发烧超过 38 度,还一直咳嗽,那就得考虑是不是感冒了。”
工程师就把这经验编成规则:
IF (发烧 > 38度 AND 持续咳嗽)
THEN (检查感冒)
基于这种思路,斯坦福在 1970 年代初开发了一套专家系统:MYCIN,用来协助医生寻找传染病治疗方案
在测试过程中,MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。
然而,尽管性能良好,但它最终未能在医院落地:
现实世界根本不是靠几条规则就能搞定的:有时候,资深老大夫也说不清自己是怎么诊断的,可能就是直觉
「人有多聪明,我就写多少规则」的思路,最终被证明过于简单。
真实的临床实践是一个动态、多轮的决策过程,医生常常需要在信息不完整的情况下,综合经验、沟通技巧和伦理考量做出判断。
这里,百川希望培养一个真正的 AI医生:会主动问诊、懂得共情沟通、能权衡检查成本与诊断收益
要实现「AI医生」要怎么做?
人有多聪明,我就写多少规则 这种规则填鸭显然不行
强化学习(RL)呢?直接用在医疗领域,也水土不服
在数学领域,我们有着简洁问题、标准答案所构造的静态数据
医疗问题是复杂问题,没有标准答案
同一个症状,可能存在不同病因;同一个病因,面对不同的患者体格、病史、用药史,治疗方案也千差万别。
医疗需要动态验证:不仅要看诊断结果对不对,更要看问诊过程的思维方式对不对
但构建这个系统最大的难点在于:现实中的病人,几乎都无法准确表达自己的症状
资深医生,能轻易从患者的含糊描述中,抓住关键病因
而基于静态病例、临床指南训练的模型,很难处理这种情况
为了突破这一瓶颈,百川搭建了一套的临床模拟系统,包含两部分组成:
一、患者模拟器 (Patient Simulator)
基于海量脱敏病历、临床指南和真实医患对话,自动生成仿真患者。这些患者不再是呆板的文本,他们会表现出焦虑、恐惧,甚至会选择性地透露或隐瞒信息,极大地还原了真实问诊的复杂性
二、临床评分器 (Clinical Rubrics Generator)
在这里,百川设计了一套多维加权评估清单,对标高级医生的临床思维模式。与常规 benchmark 不同的是,这套判定不仅仅是对错判断,而是从诊断准确性、问诊逻辑、治疗方案合理性、沟通共情能力、医疗伦理等多个维度,对模型进行连续的量化打分。
在这个高度仿真的环境中:模型和虚拟患者不断交互,根据评分器的密集反馈持续优化诊疗策略。模型从医学生开始开始练习,通过与无数仿真患者的互动,接收专家评审团的密集反馈,一路成长为经验丰富的医生
Baichuan-M2 的训练采用了“三段式”架构,系统性地将知识、推理和实战能力注入模型。
一、数据配比
为了在增强医学能力的同时不损害其通用性,训练数据以 2:2:1 的比例混合了高质量医疗数据、其他通用数据和数学推理数据
二、推理注入
Baichuan M2 有着类似 DeepSeek-R1 的推理,在知识密集的文本中,团队自适应地插入了思维注释 (deep thinking notes),模拟医生在面对复杂病例时的知识关联、批判性反思和病例推演过程。
三、强化学习
在强化学习(RL)阶段,M2 采用了改进版的 GRPO (Group Relative Policy Optimization) 算法,这与 DeepSeek-V3/R1 的选择不谋而合
通过多阶段的 RL 策略,模型在“虚拟医院”中进行“科室轮转”,从基础的问诊沟通开始,逐步学习处理更复杂的诊断和决策任务
下面是 Baichuan-M2 的测试成绩,基于 HealthBench
先穿插说一下HealthBench
这是 OpenAI 发布的一个目前最为权威的医疗测试集,有 262 名全球医生合作构建,包含了 5000 场真实的多轮医患对话,并为每一场对话都定制了由医生编写的、包含数万条细则的评分标准,来评估模型在真实临床场景下的综合能力。
在这套评测中,M2 在多个核心医疗场景中排名排名第一,包括:
而在难度极高的 HealthBench Hard 测试集上,目前全球仅有 Baichuan-M2 和 GPT-5 的得分超过了 32 分,这充分证明了其在解决复杂医疗问题上的顶尖水平
在中国医疗场景下,M2 的优势尤为明显
以上图的肝癌案例为例,M2 能够准确依据中国的 CNLC 指南给出手术建议,而 gpt-oss-120b 则基于 BCLC 指南做出了“不可手术”的错误判断。
另外的来说,在真实的复杂病例场景中,M2 的 SOAP (主观、客观、评估、计划) 临床思维流程,其推理过程与真实医生的工作流高度一致。
对于数据安全诉求很高的医疗模型来说,有着极高的本地化部署的诉求,要让模型在医院场景下经济、高效地运行。对此,百川的这一模型,在部署优化上做到了极致
先是跑得动:M2 通过 4-bit 权重与 8-bit KV cache 的量化方案,团队将原本近 120GB 的模型文件压缩至 24GB 以内,而精度损失控制在 2% 以内,使得单张消费级的 RTX 4090 显卡即可流畅运行。
再是跑得快:M2 通过 Eagle-3 的 MTP (Multi-token Prediction) ,模型在单用户场景下实现了 74.9% 的吞吐量提升,进一步加快了推理速度
还得都能跑:M2 不仅支持 vLLM、SGLang 等主流推理框架,还深度适配了华为昇腾 NPU,为模型的国产化部署铺平了道路
各模型厂都有自己的定位,百川是主打医疗
这次的 M2-32B,算是交了一张优秀的答卷
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-13
OpenAI GPT-OSS深度解析:架构、生态系统与战略意图
2025-08-13
Embedding Atlas:苹果开源的高性能向量可视化工具
2025-08-13
五大AI工作流平台,n8n、Coze、Dify、Zapier、Make谁是你的最优选
2025-08-13
昆仑万维搞了个小模型,很美很强,还开源
2025-08-13
GPT-OSS-20B和Qwen3 30B-A3B,要选哪一个?实测对比告诉你!
2025-08-13
“入口”新变局:OpenAI开源模型+“口袋里的设备”,企业管理会发生变化吗?
2025-08-12
国产 AI 智谱开源了 GLM-4.5V,杀疯了。
2025-08-12
智谱发布开源视觉推理模型GLM-4.5V,刷新41项多模态推理SOTA
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-07-12
2025-07-27
2025-07-29
2025-07-29