免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek V3.1 测评

发布日期:2025-08-19 22:58:56 浏览次数: 1520
作者:大模型观测员

微信搜一搜,关注“大模型观测员”

推荐语

DeepSeek V3.1在保持性能的同时优化了Token使用量,但推理能力与幻觉问题依旧存在,适合注重效率的Agent类应用。

核心内容:
1. Token使用量下降13%与上下文提升至128K的优化
2. 字符能力改进但编程能力与幻觉问题未解决
3. 中英夹杂与"偷懒"倾向等新问题的出现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

短的结论:减量不减质

基本情况:

DeepSeek更新模型向来以谨慎著称,不够爆炸的更新统统算“小更新”,而这次官方竟然连“小更新”都没提,只说了增加上下文到128K(之前64K)。可以预见在性能方面恐怕没有太多惊喜。

实测下来有一个好消息和一个坏消息,好消息是V3.1的Token使用量比0324版下降了约13%,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但考虑到上下文提升,一增一减,在Agent类应用中可能效果会有提升。

逻辑成绩:

*表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

**题目及测试方式,参见:大语言模型-逻辑能力横评 25-07月榜

***完整榜单更新在Github(https://github.com/malody2014/llm_benchmark)

***这次测试基于8月题目,已经增加#45、#46、#47题,所以所有模型的分数相比7月有变动。

下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。

改进:

  • 长度控制:前面已经表述过,V3.1在Token使用上有较大改进。此外,旧版存在小概率死循环输出,以及在一些复杂问题上不受控的反复验算。而V3.1中暂未发现此类问题。即便复杂问题,V3.1也会意识到自己解不出来后选择放弃,不会无脑推理下去。

  • 字符能力:在典型的字符能力考察上,V3.1有可观测的改进,如#9单词缩写,#11岛屿面积,#37三维投影,#46字母组合等题目,V3.1整体得分,稳定性均不低于旧版。不过字符能力的改进并没有反映在编程能力上,从精选的少量编程题测试来看,V3.1的变化不显著。


不足:

  • 幻觉严重:幻觉是V3以及R1的顽疾,V3.1在这方面自然看不到改善迹象,比如#42年报总结问题,V3.1在所有关键信息摘录上全错,甚至不如旧版。在推理过程会产生大量中间数据/信息的题目上,如#4魔方旋转,#40代码推导,同样表现不如旧版。

  • 能省则省:V3.1在很多问题上有较大的“偷懒”倾向,比如#24数字规律,在推导十几次,输出3000多Token时宣布放弃,“由于时间关系,我直接给出常见答案”。#29数学符号重定义,也是在短暂推理后放弃。#39火车票问题因为prompt要求不能写程序,V3.1更是直言不讳,觉得太麻烦,不会做,告辞。类似Case还有很多。或许是DeepSeek为了优化Token时候做的取舍。

  • 中英夹杂:夹杂问题在旧版是不存在的,甚至用英文提问,也会回复中文。而在V3.1里,中英夹杂却随处可见,尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。


赛博史官曰:

人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队,以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任,但这显然不不切实际的,技术发展有其必然规律。

从V3.1的变化中,我们能一窥DeepSeek团队的思考逻辑,推测他们自己发现了什么问题,进行了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询