我要投稿

阿里推出夸克医疗大模型：医考70%高分背后，RAG为何是“压舱石”？

发布日期：2025-09-12 08:29:28 浏览次数： 2276

作者：子非AI

微信搜一搜，关注“子非AI”

阿里巴巴正式发布其医疗大模型QuarkMed，它在一项模拟中国执业医师资格考试的测试中，取得了70%的惊人准确率，性能超越一众顶尖模型。

其成功的秘诀并非单一技术突破，而是一套严谨的组合拳：
世界级的数据工程 (1T tokens的权威分级数据) 与独创的“四段式”训练心法，系统性地将通用AI锻造成领域专家。

更重要的是，该项目为行业揭示了两条关于AI可靠性的黄金法则：

• 法则一：在高风险领域，RAG（检索增强生成）不是辅助，而是对抗幻觉、保证事实准确性的生命线。
• 法则二：强化学习（RL）是能力边界清晰的“手术刀”，而非包治百病的“万能药”，其威力取决于目标的“可验证性”。

AI医疗的“灵魂拷问”

一个错误的医疗建议，代价是什么？

当通用大模型的浪潮试图涌入医疗这片海域时，这个问题便成为所有从业者无法回避的“灵魂拷问”。医疗，因其零容忍的风险性、深不可测的专业壁垒和日新月异的知识迭代，成为了AI最难啃、也最需敬畏的领域。

正因如此，打造一个真正可靠的医疗专用大模型，已成为全球科技竞赛的焦点。近期，一份关于QuarkMed的技术报告，不仅带来了70%执考准确率的震撼成绩，更重要的是，它系统性地回答了那个终极问题：一个可靠的医疗AI，究竟是如何炼成的？

基石：米其林星级般的“数据厨房”

顶级AI的背后，必有顶级的数据。QuarkMed的强大，始于一个堪称“米其林星级”的“数据厨房”。

• 海量与精细并重：这个厨房拥有约1T tokens的庞大医疗材料库。但真正的艺术在于精细化处理。团队通过医学专家构建的知识框架，对海量数据进行梳理，实现了对事实类知识点超过90%的覆盖，确保AI的“学识”既广博又系统。
• 质量高于一切：为保证数据的“纯度”，QuarkMed设立了两道“滤网”。第一道是独创的A-E五级权威性分级，确保核心训练数据源于顶级指南和文献。第二道是技术“降噪” ，针对扫描版书籍等图片格式资料，训练了先进的视觉模型进行内容提取，将数据质量提升超30%。
• 从“背诵”到“理解” ：最精妙的一步，是教会AI像医生一样思考。团队通过一个“翻译”模型，将结构化的知识图谱（即“A导致B”这类逻辑关系）转化为AI能“读懂”的自然语言。这次“开窍”效果显著：在知识理解测试中，模型准确率从39%直接飙升至60.57%，实现了从“死记硬背”到“融会贯通”的质变。

心法：从“通才”到“专才”的四段式飞升

有了顶级原料，还需绝顶心法。QuarkMed独创的 “四段式训练法” ，是一套将通用模型系统性锻造成医疗专家的路线图。

• 第一式：指令微调（IFT） - 打通“任督二脉”
此阶段旨在打通模型的“任督二脉”，让它听懂指令。通过 “能力-问题”双轮驱动的设计：一方面系统性构建理解、生成、推理等四大基础能力；另一方面，像“打补丁”一样，针对模型暴露的幻觉、逻辑混乱等弱点，进行专项的对抗性训练。

图1：能力驱动的数据增强循环，构建四大核心能力
图2：问题驱动的数据增强循环，精准修复模型缺陷
• 第二式：监督微调（SFT） - 名医的“临床带教”
SFT好比“名医带徒”。QuarkMed的“名师”是一个严谨的数据生产线：从真实世界的问题出发，匹配权威资料，由AI生成初步答案，最后由人类医学专家团队逐一审核、精修，确保教给模型的每一条“病例”都是金标准。

图3：SFT样本的精细化数据处理流程，确保医学准确性
• 第三式：专业强化学习（RL Stage 1） - 虚拟“手术室”特训
这是QuarkMed的“杀手锏”。针对诊断、用药等核心医疗推理任务，团队设计了专项强化学习。其灵魂是一个 “规则+模型”混合式的奖励机制。它就像一个虚拟“手术室”里的总教官，对有明确对错的操作，用刚性规则评判；对复杂情况，再由AI教官辅助打分。这种极限特训效果斐然，仅此阶段就让模型在诊断任务上的准确率提升了3个百分点。
图4：数据质量（准确性与难度）对强化学习性能的正向影响
• 第四式：通用强化学习（RL Stage 2） - 注入“职业伦理”
技术过硬，还需品行端正。第二阶段RL旨在为AI注入“职业伦理”。通过诚实、有用、合规三大奖励维度，并采用更先进的GRPO算法，QuarkMed被塑造成一个不仅专业，而且可靠、负责的AI助手。

图5：通用RL阶段的整体训练架构，融合多维度奖励信号
图6：奖励模型迭代优化工作流，通过人机协作持续提升对齐能力

成绩单：实力无需多言

在MedQA（美国执考）、CMExam（中国执考）等多个国际公开基准测试中，QuarkMed的表现全面超越同量级的模型，跻身第一梯队。

表：QuarkMed在多个公开医疗基准测试中表现优异

尤其在一项基于中国执业医师资格考试（CPQExam）的内部测试中，QuarkMed以70%的准确率，显著领先于包括DeepSeek-R1和Gemini-2.5-pro在内的多个顶尖模型。

表：在CPQExam测试中，QuarkMed（70.0）得分大幅领先其他模型

分数之外的启示：顶级医疗AI的两条生存法则

然而，比分数更重要的，是这份技术报告为整个AI行业带来的深刻启示。

第一条法则：拥抱外部世界，RAG是不可或缺的“事实安全锚”。

长久以来，业界存在一种对“超大参数”的迷信，似乎模型越大，就越能内化所有知识。这份报告却冷静地指出一个关键事实：在知识快速迭代、事实准确性高于一切的医疗领域，最可靠的性能依然依赖RAG（检索增强生成）。模型的“记忆”会过时，但通过RAG实时检索外部权威知识库，能为AI的回答提供一个不可动摇的事实“锚点” 。

第二条法则：善用强化学习，它是一把锋利但有边界的“手术刀”。

强化学习（RL）是驯服AI的强大工具，但并非万能。报告的实践揭示了它的能力边界：RL的威力，高度取决于奖励信号的清晰度。在有标准答案的任务（如做选择题）上，RL如同一把锋利的手术刀，能进行精准优化。但在需要共情、沟通和个性化判断的模糊场景中，其效果便会大打折扣。

这两条法则共同指向了AI可靠性的核心。那么，这个至关重要的“事实安全锚”——RAG系统，在QuarkMed中究竟是如何构建的？

深潜RAG：不止是检索，更是QuarkMed的“事实”守护者

报告坦言， “最强大和最可靠的性能，仍然依赖于RAG” 。它并非一个可有可無的插件，而是QuarkMed的 “主要可靠性层” 。

第一道门槛：构建一个有“智慧等级”的知识库

RAG系统的威力，首先源于其背后的知识库质量。QuarkMed的知识库构建，展现了超越“数据堆砌”的精细化运营思路。

• 权威性分级：这是其最核心的创新之一。团队基于循证医学原则，将所有数据源（教科书、临床指南、学术文献等）划分为从A到E的五个权威等级。这意味着，当模型进行检索时，它能像真正的专家一样，优先采信来自顶级指南（A级）的信息，而不是网络上的普通文章（可能是D或E级）。这种内置的“信任权重”体系，是保证回答质量的第一道关键防线。
• 持续更新与覆盖：这个庞大的知识库不仅规模达到1T tokens，更重要的是其动态更新机制（Index Freshness）。医疗知识日新月异，只有确保知识库能实时纳入最新的研究成果和临床指南，才能避免模型给出“过时”的危险建议。

第二道门槛：训练AI学会“批判性”地使用信息

仅仅检索到信息是不够的。真实世界的检索结果往往充满“噪声”。为此，QuarkMed在指令微调（IFT）阶段就设计了专门的训练任务： “RAG噪声抵抗”（RAG Noise Resistance）。

• 模拟真实挑战：在训练中，模型会接触到大量“被污染”的检索片段，其中既有黄金信息，也有“干扰项”。
• 培养三大能力：这种对抗性训练旨在培养模型的三个关键能力：

1. 精准识别：从一堆信息中找出最核心、最相关的部分。
. 忠实引用：确保最终的回答能够溯源至权威出处。
2. 果断忽略：当检索到的信息与问题无关时，学会忽略它们，而不是被它们“带偏”。

通过这种方式，QuarkMed学会了像一个严谨的学者一样去使用RAG。正是这种对知识库的精细运营和对模型使用能力的刻意训练，让RAG在QuarkMed中发挥了不可替代的作用，有力地证明了建立一个权威、动态的外部知识库，并教会模型如何与之高效、批判性地协同工作，才是AI在医疗等高风险领域落地的真正基石。