微信扫码
添加专属顾问
我要投稿
今天Qwen2-Math重磅来袭,其基础模型使用 Qwen2-1.5B/7B/72B 进行初始化。接下来,对模型进行了预训练,使用的是精心构建的数学领域语料库。这个语料库汇集了大量优质的数学网络资源、书籍、代码、试题以及由 Qwen2 模型生成的数学训练数据。
Qwen2-Math 基础模型在三个知名的英语数学评测标准上进行了测试,包括 GSM8K、Math 和 MMLU-STEM。同时,也将其应用于三个中文数学评测标准,分别是 CMATH、高考数学填空题和高考数学问答。所有这些评估都是通过少量样本的链式推理(Few-shot CoT)方式进行的。
表现强悍
看看各个测试集的具体表现,所有评估均使用 Few-shot CoT 方式:
Qwen2-Math指令微调模型是这么干的:
模型层面:首先训练一个专为数学设计的奖励模型,这个模型基于 Qwen2-Math-72B。随后,我们将这个丰富的奖励信号与一个简单的二元指示器相结合,后者能够标示模型是否准确回答问题。利用这种复合信号,我们对模型进行了监督学习,通过拒绝采样的方法创建了 SFT(Supervised Fine-Tuning)数据集。在 SFT 模型的基础上,我们进一步应用了 GRPO(Gradient-based Reward Prediction Optimization)技术来对模型进行优化。
数据层面:去除数据污染,在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。
为了进一步测试模型,Qwen团队对测试了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),我们使用了 5-shot 进行评测。
遗憾的是,模型目前只支持英文,想体验的可以访问:
https://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-72B-Instruct
如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-14
我微调了一个LangChain专家模型,离Vibe Agent又近了一步
2025-12-11
左脚踩右脚:大模型的有趣且简单的微调方式“SHADOW-FT”
2025-12-11
大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
2025-12-08
一杯咖啡成本搞定多模态微调:FC DevPod + Llama-Factory 极速实战
2025-12-04
OpenAI公开新的模型训练方法:或许能解决模型撒谎问题,已在GPT-5 thiking验证
2025-11-23
微调Rerank模型完整指南
2025-11-22
大模型微调全流程实战指南:基于IPO框架的深度解析与优化
2025-11-21
AI基础 | Qwen3 0.6B 微调实现轻量级意图识别
2025-10-12
2025-10-14
2025-10-21
2025-09-24
2025-09-20
2025-09-25
2025-11-05
2025-11-05
2025-11-21
2025-12-04