微信扫码
添加专属顾问
我要投稿
深度思考能力显著提升,DeepSeek-R1 0528 版本评测不容错过。 核心内容: 1. DeepSeek-R1 0528 版本升级带来的性能提升 2. 实测对比:新版 DeepSeek-R1 0528 与旧版及 Claude Sonnet 4 的效果 3. 官方信息总结及上手体验分享
DeepSeek-R1 0528 官方信息速览和我的上手评测
DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。
主要强化了深度思考能力,例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。这一进步得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。
DeepSeek 官方还蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。
证明了,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。
同时,其他能力也有提升。如幻觉降低了 45~50% 左右。写作方面,针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。
信息来源:https://api-docs.deepseek.com/zh-cn/news/news250528
俗话说,耳听为虚眼见为实。效果好不好,还得看实测。下面用两个典型场景简单对比一下 原来的 DeepSeek-R1 和 DeepSeek-R1 0528 以及 Claude Sonnet 4 的效果。
让 DeepSeek-R1 绘制什么是 IPO 的 SVG:
让 DeepSeek-R1 0528 绘制什么是 IPO 的 SVG:
同样的提示词 Claude Sonnet 4 上的效果:
整体而言,DeepSeek-R1 生成的图不完整,DeepSeek-R1 0528 效果相对不错, Claude Sonnet 4 字偏多。
提示词:
写一个视频剪辑前端页面 CSS HTML
JS 代码都放在 HTML 里面
DeepSeek-R1 生成的页面预览:
DeepSeek-R1 0528 截图:
DeepSeek-R1 0528 生成的页面预览效果:
同样的提示词在 Claude 4.0 Sonnet 上的效果:
我们可以看到, DeepSeek-R1 编写的界面相对简单而且缺少美感,DeepSeek-R1 0528 设计的网页美观度确实挺不错,和 Claude Sonnet 4 的效果比较接近。
总之,根据官方资料 DeepSeek-R1 0528 在深度思考能力有提升,幻觉降低了,写作方面有提升。实测下来,DeepSeek-R1 0528 和 DeepSeek-R1 相比编码能力有明显提升,和 Claude Sonnet 4 比较接近。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-15
对话 OPPO AI 姜昱辰:手机才是 Memory 最好的土壤,AI 一定会彻底改变智能手机
2025-10-15
当“翻译”成本归零:AI如何重塑组织架构
2025-10-15
ChatGPT 成人模式要来了,但作为成年人我一点都不高兴
2025-10-15
4年融资7000万美元,给工地装上AI大脑,这家公司想解决建筑业数据灾难
2025-10-15
万字长文|大语言模型结构化输出(Structured Output)的技术原理和实现
2025-10-15
信息量很大!2025.10.2 硅谷内部关于 AI Agent 的讨论会实录
2025-10-15
深度|收入8个月翻4倍,自动化神器n8n创始人:AI要么是一个巨大的机遇,要么是公司的终结
2025-10-14
Opera Neon 浏览器重磅升级:集成 OpenAI Sora 2,开启智能创作新纪元
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-08-20
2025-10-14
2025-10-13
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29