我要投稿

DeepSeek更新版本v3.1，有效果提升吗？附实测对比

发布日期：2025-08-19 22:29:50 浏览次数： 2881

作者：刘聪NLP

微信搜一搜，关注“刘聪NLP”

今天DeepSeek更新了，上新V3.1模型，一如既往，一声不吱，然后AI圈又沸腾了！！

但我的第一个疑问，就是我到底更没更新，因为我简单测了几个问题，并没有太大的改变，然后我迷惑了。还再群里问了一下。

经过提醒，发现确实更新了，因为之前开深度思考的时候，回复一定是R1，而现在开启深度思考，回复的却是V3。

那么进一步来看，V3.1应该是一个混合推理模型，感觉跟Qwen3将混合推理模型走了相反的方向，但是一切都是猜测，等v3.1开源就知道了。

本着对神的尊重，还是要对比测试一下v3.1的效果，但实话实说，有点失望，这也许是为什么官方发信息的时候，仅说了长度拓展至128K，就没用然后了，也没说具体哪个方向提高了，

也许确实也没提高，大家也都有一样的疑问。

然后我进行了一波对比实测，先说结论，

我觉得没提高，我测了6个方面，我觉得都没有提高，甚至一些推理内容，还没有之前版本好，欢迎大家评论区讨论，说出你的看法！

然后我还发现think过程的中英文混杂变得比R1更明显了，这可能是因为RLVR导致，这里有一篇相关paper，The Impact of Language Mixing on Bilingual LLM Reasoning，结论是语言混杂可以增强推理能力。

附一个中英混杂think的测试，之前这种文本推理一般不会出现，只有数学代码会有，而现在这个版本，经常会出现。

下面附测试结果，老版本模型是用硅基流动接口测试的。

常规测试

Prompt：将“I love DeepSeek-V3.1”这句话的所有内容反过来写

R1-0528结果：正确

V3.1结果：多了个空格

知识理解

Prompt：如何理解“但丁真不会说中国话，但丁真会说中国话”

R1-0528结果：正确

V3.1结果：你看连回答里都带“perception”

角色扮演&创作

Prompt：用知乎风格写一段对比 deepseek-v3 和 deepseek-v3.1 的使用体验，语气轻松、略带吐槽。

R1-0528结果：往下看，我觉得比V3.1强

V3.1结果：

依旧小红，依旧老鹰，依旧色盲

Prompt：小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

R1-0528结果：回答的很全面

V3.1结果：也对，我认为小红是女生

Prompt：未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

R1-0528结果：没对

V3.1结果：没对

Prompt：有一天，一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88 分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。请问这位父亲为什么过一会崩溃了？

R1-0528结果：回答出了女儿色盲，但没回答伦理

V3.1结果：回答的是父亲色盲，离谱

数学

Prompt：Sroan 有一个私人的保险箱，密码是 7 个不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说：你们 4 个人每人都猜对了位置不相邻的两个数字。（只有 “位置及其对应的数字” 都对才算对）问：密码是什么？

R1-0528结果：对了