免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

刚刚,deepseek低调开源,金牌级模型!

发布日期:2025-11-28 06:18:04 浏览次数: 1577
作者:PaperAgent

微信搜一搜,关注“PaperAgent”

推荐语

DeepSeek低调开源金牌级数学推理模型,首次实现可自证的AI数学证明能力,突破传统"答对≠会证"的困境。

核心内容:
1. DeepSeek-Math-V2在IMO、CMO等顶级数学竞赛中达到金牌线
2. 创新的"生成-验证"双向增强飞轮机制详解
3. 模型自我反省与自动扩数据技术突破

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

刚刚,DeepSeek又悄悄开源了DeepSeek-Math-V2:迈向可自证的数学推理。

model、paper都已开源。

DeepSeekMath-V2 展现出强大的定理证明能力:在 IMO 2025、CMO 2024 上达到金牌线,并在 Putnam 2024 上以扩展测试时计算斩获 118/120 的近满分成绩。虽然前路仍长,但这些结果首次表明——可自证的数学推理不仅可行,更是通往更强数学 AI 的必由之路。

为什么“答对”不等于“会证”?

过去一年,大模型靠「最终答案奖励」把 AIME、HMMT 等竞赛刷到饱和,但

  • 答对≠推理对:模型可能靠“蒙”或“跳步”拿到正确答案;
  • 定理证明无“标答”:很多题目要的是严谨推导而非数值结果,传统奖励机制直接失效。

DeepSeekMath-V2 的目标:让模型像数学家一样,自己写证明、自己挑毛病、自己改到无懈可击

方法概览:一条「生成-验证」双向增强飞轮

角色
模型
作用
证明生成器
 πθ
基于 DeepSeek-V3.2-Exp
写自然语言证明
证明验证器
 πφ
同尺寸 LLM
给证明打分、指出漏洞
元验证器
 πη
同上
检查验证器有没有“幻觉”挑错

三者组成一个可扩展的强化学习闭环:

  1. 用验证器当奖励模型,训练生成器写出更高分证明;
  2. 生成器变强后,产出更难验证的新证明,反向成为验证器的“练兵场”;
  3. 元验证器确保“挑错”本身可信,防止验证器靠 hallucination 拿高分。

核心组件拆解

3.1 验证器:如何训练一个“数学老师”?

  • 数据:17 K 道 AoPS 竞赛题 + 多轮迭代生成证明,人工按 0/0.5/1 三档打分。
  • 奖励
    • R_format:必须输出“Here is my evaluation …”+ \boxed{score} 格式;
    • R_score:预测分与人工分越近奖励越高。
  • 缺陷:早期验证器会“编漏洞”骗高分 → 引入元验证器。
图1:CNML 难度各分支平均证明分
图1:CNML 难度各分支平均证明分

3.2 元验证器:给“老师”再配一个“督导”

  • 任务:检查验证器指出的漏洞是否真的存在、评分是否合理。
  • 数据:专家对 1 K 份验证器输出再打分 → 训练 πη。
  • 效果:验证器分析质量从 0.85 → 0.96,幻觉漏洞大幅下降。

3.3 生成器:学会“自我反省”

训练时要求一次输出两段:

##Solution
……(证明正文)
##Self Evaluation
Here is my evaluation of the solution: …
\boxed{score}

奖励设计:

  • R_Y:外部验证器给证明的真实分;
  • R_Z:元验证器给“自评”的准确度分;
  • 权重 α=0.76,β=0.24 → 诚实认错比盲目自信更赚

3.4 自动扩数据:人类标注退场

当验证器 & 元验证器足够强,用“多数元验证一致”原则自动给新证明打标签;
最近两轮训练完全取消人工标注,专家抽测一致性>96%。

实验:竞赛级表现

比赛
题目数
DeepSeekMath-V2 得分
人类最佳
IMO 2025
6
83.3 %(5 题全对 + 1 题部分)
金牌线≈80 %
CMO 2024
6
73.8 %(4 全对 + 1 部分)
金牌线≈70 %
Putnam 2024
12
118/120
90/120
表1:竞赛得分明细
表1:竞赛得分明细

4.1 一步生成 vs 迭代精修

  • CNML 难度:一步生成即全面领先 GPT-5-Thinking-High、Gemini-2.5-Pro;
  • IMO-Shortlist:允许最多 8 次迭代后,Best@32 提升 **+15 %**。
图2:迭代次数 vs 证明质量
图2:迭代次数 vs 证明质量

4.2 高算力搜索:64×64 并行“围剿”难题

  • 每题维持 64 份候选证明 + 64 份验证分析;
  • 16 轮迭代后仍无漏洞→视为解决;
  • 11/12 道 Putnam 题被完全攻克,剩余 1 道仅微小瑕疵。
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
https://hf-mirror.com/deepseek-ai/DeepSeek-Math-V2
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
DeepSeek

推荐阅读

    Agents:(编排、记忆、插件、workflow、协作)" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents:(编排、记忆、插件、workflow、协作)

    SOTA集体掉线,美团LongCat这个最新开源牛了!

    AI Code赛道抛出一匹黑马:来自于字节跳动

    一篇最新自演化AI Agents全新范式系统性综述


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询