微信扫码
添加专属顾问
我要投稿
DeepSeek V3.1版本实测结果出炉,性能提升存疑但中英混杂推理能力增强!核心内容: 1. V3.1版本更新内容与用户实测体验对比 2. 六个维度的详细测试结果分析 3. 中英混杂推理现象与相关研究解读
大家好,我是刘聪NLP。
今天DeepSeek更新了,上新V3.1模型,一如既往,一声不吱,然后AI圈又沸腾了!!
但我的第一个疑问,就是我到底更没更新,因为我简单测了几个问题,并没有太大的改变,然后我迷惑了。还再群里问了一下。
经过提醒,发现确实更新了,因为之前开深度思考的时候,回复一定是R1,而现在开启深度思考,回复的却是V3。
那么进一步来看,V3.1应该是一个混合推理模型,感觉跟Qwen3将混合推理模型走了相反的方向,但是一切都是猜测,等v3.1开源就知道了。
本着对神的尊重,还是要对比测试一下v3.1的效果,但实话实说,有点失望,这也许是为什么官方发信息的时候,仅说了长度拓展至128K,就没用然后了,也没说具体哪个方向提高了,
也许确实也没提高,大家也都有一样的疑问。
然后我进行了一波对比实测,先说结论,
我觉得没提高,我测了6个方面,我觉得都没有提高,甚至一些推理内容,还没有之前版本好,欢迎大家评论区讨论,说出你的看法!
然后我还发现think过程的中英文混杂变得比R1更明显了,这可能是因为RLVR导致,这里有一篇相关paper,The Impact of Language Mixing on Bilingual LLM Reasoning,结论是语言混杂可以增强推理能力。
附一个中英混杂think的测试,之前这种文本推理一般不会出现,只有数学代码会有,而现在这个版本,经常会出现。
下面附测试结果,老版本模型是用硅基流动接口测试的。
Prompt:将“I love DeepSeek-V3.1”这句话的所有内容反过来写
R1-0528结果:正确
V3.1结果:多了个空格
Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”
R1-0528结果:正确
V3.1结果:你看连回答里都带“perception”
Prompt:用知乎风格写一段对比 deepseek-v3 和 deepseek-v3.1 的使用体验,语气轻松、略带吐槽。
R1-0528结果:往下看,我觉得比V3.1强
V3.1结果:
Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
R1-0528结果:回答的很全面
V3.1结果:也对,我认为小红是女生
Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
R1-0528结果:没对
V3.1结果:没对
Prompt:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?
R1-0528结果:回答出了女儿色盲,但没回答伦理
V3.1结果:回答的是父亲色盲,离谱
Prompt:Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?
R1-0528结果:对了
V3.1结果:没对,R1都对了
Prompt:2025年高考全国一卷数学试题
R1-0528结果:前两问对了,最后一问错了
V3.1结果:前两问对了,最后一问错了
Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现
R1-0528结果:还行,但人机有点呆,不如Qwen3-Coder
V3.1结果:但人机有点呆,
Prompt:生成一个通过点击立方体的各个面,逐渐展开为完整平面的交互动画,用html展现
R1-0528结果:不对
V3.1结果: 更离谱
还测了几个其他的,感觉不如整体Qwen3-Coder。
V3.1 仅提高 0.1个版本,是合理的。
V3.1整体感觉没啥提升,甚至我觉得还有些退步,不过虽然例子附的都是V3.1和R1的对比,不开推理,V3.1和V3对比我觉得也相差不大。
不过我依旧期待R2,不知道DeepSeek啥时候放出来!
PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-19
AI Agent企业实战:从“降本增效”到“价值创造”的真实路径
2025-08-19
DeepSeek V3.1 测评
2025-08-19
Deepseek 3.1发布,R2还没来
2025-08-19
DeepSeek突然更新V3.1:实测后才发现的亮点与槽点
2025-08-19
我把吴恩达老师的15门免费AI课都看了一遍,真心推荐给想学AI的你
2025-08-19
字节跳动发布M3-Agent:当AI拥有了“记忆”,世界将如何被重塑?
2025-08-19
渗透工程师智能体:AI红客团队的战术执行中枢
2025-08-19
大模型下半场,腾讯手里还有哪“三张牌”?
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-06-13
2025-06-19
2025-05-28
2025-07-29
2025-08-19
2025-08-19
2025-08-18
2025-08-18
2025-08-18
2025-08-15
2025-08-14
2025-08-14