免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek更新版本v3.1,有效果提升吗?附实测对比

发布日期:2025-08-19 22:29:50 浏览次数: 1548
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

DeepSeek V3.1版本实测结果出炉,性能提升存疑但中英混杂推理能力增强!

核心内容:
1. V3.1版本更新内容与用户实测体验对比
2. 六个维度的详细测试结果分析
3. 中英混杂推理现象与相关研究解读

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是刘聪NLP。

今天DeepSeek更新了,上新V3.1模型,一如既往,一声不吱,然后AI圈又沸腾了!!

但我的第一个疑问,就是我到底更没更新,因为我简单测了几个问题,并没有太大的改变,然后我迷惑了。还再群里问了一下。

经过提醒,发现确实更新了,因为之前开深度思考的时候,回复一定是R1,而现在开启深度思考,回复的却是V3。

那么进一步来看,V3.1应该是一个混合推理模型,感觉跟Qwen3将混合推理模型走了相反的方向,但是一切都是猜测,等v3.1开源就知道了。

本着对神的尊重,还是要对比测试一下v3.1的效果,但实话实说,有点失望,这也许是为什么官方发信息的时候,仅说了长度拓展至128K,就没用然后了,也没说具体哪个方向提高了,

也许确实也没提高,大家也都有一样的疑问。

然后我进行了一波对比实测,先说结论,

我觉得没提高,我测了6个方面,我觉得都没有提高,甚至一些推理内容,还没有之前版本好,欢迎大家评论区讨论,说出你的看法!

然后我还发现think过程的中英文混杂变得比R1更明显了,这可能是因为RLVR导致,这里有一篇相关paper,The Impact of Language Mixing on Bilingual LLM Reasoning,结论是语言混杂可以增强推理能力。

附一个中英混杂think的测试,之前这种文本推理一般不会出现,只有数学代码会有,而现在这个版本,经常会出现。

下面附测试结果,老版本模型是用硅基流动接口测试的。

常规测试

Prompt:将“I love DeepSeek-V3.1”这句话的所有内容反过来写

R1-0528结果:正确

V3.1结果:多了个空格

知识理解

Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”

R1-0528结果:正确

V3.1结果:你看连回答里都带“perception”

角色扮演&创作

Prompt:用知乎风格写一段对比 deepseek-v3 和  deepseek-v3.1 的使用体验,语气轻松、略带吐槽。

R1-0528结果:往下看,我觉得比V3.1强

V3.1结果:

依旧小红,依旧老鹰,依旧色盲

Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

R1-0528结果:回答的很全面

V3.1结果:也对,我认为小红是女生

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

R1-0528结果:没对

V3.1结果:没对

Prompt:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?

R1-0528结果:回答出了女儿色盲,但没回答伦理

V3.1结果:回答的是父亲色盲,离谱

数学

Prompt:Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?

R1-0528结果:对了

V3.1结果:没对,R1都对了

Prompt:2025年高考全国一卷数学试题

R1-0528结果:前两问对了,最后一问错了

V3.1结果:前两问对了,最后一问错了

代码

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现

R1-0528结果:还行,但人机有点呆,不如Qwen3-Coder

V3.1结果:但人机有点呆,

Prompt:生成一个通过点击立方体的各个面,逐渐展开为完整平面的交互动画,用html展现

R1-0528结果:不对

V3.1结果: 更离谱

还测了几个其他的,感觉不如整体Qwen3-Coder。

写在最后

V3.1 仅提高 0.1个版本,是合理的。

V3.1整体感觉没啥提升,甚至我觉得还有些退步,不过虽然例子附的都是V3.1和R1的对比,不开推理,V3.1和V3对比我觉得也相差不大。

不过我依旧期待R2,不知道DeepSeek啥时候放出来!

PS:都看到这里,来个点赞在看关注吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询