微信扫码
添加专属顾问
我要投稿
DeepSeek V3.1在保持性能的同时优化了Token使用量,但推理能力与幻觉问题依旧存在,适合注重效率的Agent类应用。核心内容: 1. Token使用量下降13%与上下文提升至128K的优化 2. 字符能力改进但编程能力与幻觉问题未解决 3. 中英夹杂与"偷懒"倾向等新问题的出现
短的结论:减量不减质
基本情况:
DeepSeek更新模型向来以谨慎著称,不够爆炸的更新统统算“小更新”,而这次官方竟然连“小更新”都没提,只说了增加上下文到128K(之前64K)。可以预见在性能方面恐怕没有太多惊喜。
实测下来有一个好消息和一个坏消息,好消息是V3.1的Token使用量比0324版下降了约13%,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但考虑到上下文提升,一增一减,在Agent类应用中可能效果会有提升。
逻辑成绩:
*表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。
**题目及测试方式,参见:大语言模型-逻辑能力横评 25-07月榜
***完整榜单更新在Github(https://github.com/malody2014/llm_benchmark)
***这次测试基于8月题目,已经增加#45、#46、#47题,所以所有模型的分数相比7月有变动。
下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。
改进:
长度控制:前面已经表述过,V3.1在Token使用上有较大改进。此外,旧版存在小概率死循环输出,以及在一些复杂问题上不受控的反复验算。而V3.1中暂未发现此类问题。即便复杂问题,V3.1也会意识到自己解不出来后选择放弃,不会无脑推理下去。
字符能力:在典型的字符能力考察上,V3.1有可观测的改进,如#9单词缩写,#11岛屿面积,#37三维投影,#46字母组合等题目,V3.1整体得分,稳定性均不低于旧版。不过字符能力的改进并没有反映在编程能力上,从精选的少量编程题测试来看,V3.1的变化不显著。
不足:
幻觉严重:幻觉是V3以及R1的顽疾,V3.1在这方面自然看不到改善迹象,比如#42年报总结问题,V3.1在所有关键信息摘录上全错,甚至不如旧版。在推理过程会产生大量中间数据/信息的题目上,如#4魔方旋转,#40代码推导,同样表现不如旧版。
能省则省:V3.1在很多问题上有较大的“偷懒”倾向,比如#24数字规律,在推导十几次,输出3000多Token时宣布放弃,“由于时间关系,我直接给出常见答案”。#29数学符号重定义,也是在短暂推理后放弃。#39火车票问题因为prompt要求不能写程序,V3.1更是直言不讳,觉得太麻烦,不会做,告辞。类似Case还有很多。或许是DeepSeek为了优化Token时候做的取舍。
中英夹杂:夹杂问题在旧版是不存在的,甚至用英文提问,也会回复中文。而在V3.1里,中英夹杂却随处可见,尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。
赛博史官曰:
人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队,以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任,但这显然不不切实际的,技术发展有其必然规律。
从V3.1的变化中,我们能一窥DeepSeek团队的思考逻辑,推测他们自己发现了什么问题,进行了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-19
AI Agent企业实战:从“降本增效”到“价值创造”的真实路径
2025-08-19
DeepSeek更新版本v3.1,有效果提升吗?附实测对比
2025-08-19
Deepseek 3.1发布,R2还没来
2025-08-19
DeepSeek突然更新V3.1:实测后才发现的亮点与槽点
2025-08-19
我把吴恩达老师的15门免费AI课都看了一遍,真心推荐给想学AI的你
2025-08-19
字节跳动发布M3-Agent:当AI拥有了“记忆”,世界将如何被重塑?
2025-08-19
渗透工程师智能体:AI红客团队的战术执行中枢
2025-08-19
大模型下半场,腾讯手里还有哪“三张牌”?
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-06-13
2025-06-19
2025-05-28
2025-07-29
2025-08-19
2025-08-19
2025-08-18
2025-08-18
2025-08-18
2025-08-15
2025-08-14
2025-08-14