免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


聊聊DeepSeek V3.1体验,稳健升级但惊喜不足

发布日期:2025-08-21 09:58:42 浏览次数: 2558
作者:甲木未来派

微信搜一搜,关注“甲木未来派”

推荐语

DeepSeek V3.1低调上线,128K上下文窗口和代码能力提升成亮点,稳健升级但惊喜不足。

核心内容:
1. 上下文窗口翻倍至128K,提升长文本处理能力
2. 编程与代码能力显著增强,基准测试表现突出
3. 整体升级稳健但创新突破有限,符合+0.1版本预期

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

抱歉断更了这么久,前几天一直在忙企业服务相关的事情,

去河南调研分享了几天,回北京后又跟百度的小伙伴们对「养猪吧少年— AI养猪」活动进行复盘直播~

忙完后看这几天AI的发展,真的是AI一天,人间一年。

阿里的Qwen-Image-Edit,智谱的AutoGLM,还有神秘的nano banana等等..

就在整个AI圈都在翘首以盼,猜测DeepSeek传说中的推理模型R2何时能“亮剑”的时候,19号晚上七点,DeepSeek悄无声息地上线了V3.1版本。

还是一如既往地低调,群里发个消息,完事了

今天就来看看DeepSeek的V3.1效果如何,结论先行:

  • 上下文窗口扩充,变成128K
  • 指令遵循能力得到一点点提升(体感并不明显)
  • ToolUse、Coding能力有所提升
  • 关于文本创作方面体感不明显。

一句话总结,符合+0.1版本的更新,除了上下文外整体效果提升并不明显,本次版本尝试混合推理和一些其他的小改进。

没有铺天盖地的宣传,就是这么一次版本号+0.1的更新,却也是在AI圈里激起了一阵不小的涟漪。

trending榜

那么问题来了,这次版本号仅增加0.1的更新,到底更新了哪些东西?

先说UI界面最明显的变化,就是把深度思考(R1)中的「R1」去掉了...

意味着什么呢...

我们来看看DeepSeek V3.1的实际能力,看看它在这次进化中,到底藏了哪些“真功夫”?

V3.1的核心更新速览

咱们先来看看这次更新的“官方说明书”和社区里的第一波反馈。V3.1的核心升级点非常明确,主要集中在两个方面:

关键更新 1:上下文窗口翻倍至128k

如果说大模型的上下文窗口是它的“记忆力”,那这次升级,相当于直接把DeepSeek的短期记忆从能记住一本杂志,提升到了能记住一本中篇小说的水平。

128k的上下文窗口,意味着模型可以一次性“阅读”和处理10万个汉字的内容。

实际测试也很准确,我将一份大约300万字的《十日终焉》发送给DeepSeek,让他帮我总结内容。它告诉我们它只能阅读了前3%,也就是将近9-10万字。

同时也给到了前10万字,也就是第1章至第43章内容的总结。

这块就不多说了,其它家的模型很多都已经支持128k了,这算是一个常规的更新,在多轮对话、长文档分析、代码库理解层面有一些应用。

关键更新 2:编程与代码能力再精进

这次更新在开发者社区里反响最热烈的,就是其代码能力的再次增强。

在Hugging Face和Reddit上,已经有不少开发者放出了初步的评测结果。

特别是在Aider这个专门评估AI代码能力的基准测试上,V3.1的表现也比较亮眼,有网友已经抢先测试,V3.1得分是71.6%,在开源模型中表现很突出。

当然,我们得客观一点,基准测试的成绩斐然,就像是“考试状元”,但这并不完全等同于在真实、复杂多变的开发环境中的“实战能力”。

所以,它到底是不是真的那么能打,还得我们亲自上手试试。

V3.1的实际场景表现

接下来,就是大家最喜欢的“talk is cheap, show me the case”环节,我们直接上实测!

场景一:128k长文本处理能力

由于之前我们上传的《十日终焉》第一卷内容,DeepSeek只阅读了前3%。这次我们就截取前3%的内容,也就是前43章,字数大约10万字。

上传给DeepSeek后,让它帮我们概括内容,同时加上常规长文本“大海捞针”的测试。

DeepSeek概括《十日终焉》第一卷前43章的部分内容

可以看到这次V3.1的表现还不错。它准确地概括了文章的核心设定,章节的主要情节发展总结的也很不错。

这证明了它确实“读完”并“读懂”了整份长文档。

场景二:文本创作能力

小七姐之前开源过一次风格化迁移的prompt,用来对中文经典文学风格进行提炼,

之后再把提炼出来的结果给到AI模型进行参考,这里结合deepseek的长文本提升就能做更多的尝试。

这里用当时测评Qwen3的案例:“中文经典文学风格迁移测评”,看一下这次DeepSeek的表现。(Prompt可以看之前小七姐的文章)

提炼出来的风格化Json 「此处略」

基于上述文本风格,为我编写一篇3000字的小说(两回合),关键词:哪吒,敖丙,抽龙筋,闹海,自尽

注意:
直接生成文本内容,不要做任何标注和解释。
注意年代与叙事顺序符合史序
不要采用原风格中与西游记相关的特定人名、地名、特定修辞

仿照《西游记》的叙事风格,来写哪吒闹海的故事。

如果你之前看到过小七姐的测评,就会知道,这次DeepSeek的表现和Qwen3的表现相比,是不相上下的。

这里再看我在我们皆为历史尘埃,但 AI 或能听见其间的心跳 -- “每个小人物,都值得一部史诗”(附Prompt)中写的大事件中的小人物刻画prompt,

文本风格和流畅度还是很不错的。

场景三:常规编程任务

接下来,我们来检验一下社区里被吹爆的“代码能力”。

案例1:“表情符号反应堆”

我们来模拟一个真实的前端开发需求,让它来实现一个甲木之前用Qwen3的做过“表情符号反应堆”的游戏。

先来看一下之前Qwen3的表现。

再把同样的提示词发送给DeepSeek,来看一下它的表现。

我认为DeepSeek在这个案例中生成的要比当时的Qwen3版本效果好上一丢丢。

首先美观度上要比Qwen3稍微强一点,其次使用Web Audio API生成了不同情况下的音效反馈,最后在功能上实现了本地存储,使用localStorage来保存最高分记录,还在玩法层面加入了combo连击机制。

案例2:“情绪价值营销的大师”

再来用甲木之前的“情绪价值营销的大师”的卡片,测试一下DeepSeek v3.1的能力。 感兴趣的可以看Claude帮你来做「情绪价值营销」(附prompt)文章

输入「国产3A游戏 黑神话:钟馗」,直接生成:

最终生成的卡片虽然美观度差了一些,但是对文本的理解能力还是可以的。

用一句充满画面感、力量感和宿命感的话,直接唤醒了大家血液中的文化基因和英雄情结,直接与那些渴望变强、不惧挑战的玩家共鸣。

案例3: 文本杂志编排能力

这里我拿@摸鱼小李的文本杂志排版prompt进行测试,直接把一段长文本给到deepseek,然后让它基于文本内容出设计方案,

用冯骥微博做个测试

确定格式方案之后,它可以直接进行处理:

杂志排版风格,deepseek直出!

这样就把冯骥微博上的那段文字变成了一份杂志,排版舒适,样式精美。

之后我们对于长文本的展示都可以采用这种方法。

场景四:常识与推理能力初探

再看看V3.1在处理一些融合了常识和逻辑的“陷阱”问题时表现如何。

这类问题往往更能考验一个模型是否只会“算术”,还是真的具备了一定的“世界知识”。

案例1: 每次模型更新大家都热衷问的问题....

案例2:再来看一个2025年年高考全国一卷的一道数学题。

发送给DeepSeek后,立即就开始了证明过程,

最后给到了答案。

可以看出,V3.1展现了自己具备基础的数学能力和推理能力。

在这之后,我也拿之前写的商业分析应用的prompt逐一测试,

效果相比之前一个版本略有提升,但效果不太明显,这里就不给大家展示了。

结语

测评下来,可以感觉到DeepSeek V3.1的能力有所提升但并不明显。

关于代码层面难以给我们特别突出的体验,一方面是Qwen的模型、K2的模型以及智谱GLM-4.5,效果都很优秀,而Deepseek V3.1在这些模型中的表现并没有特别亮眼的地方。

V3.1并没有给大家带来特别大的预期,但更像是一次“承上启下”的稳健升级。

它在现有V3的优秀架构基础上,针对长文本处理和代码方向进行了“一些优化”,而且在这个迭代中,它也尝试着把混合推理纳入它的范畴,做一些尝试。

这可能是DeepSeek的策略:在推出新模型(V4/R2)之前,先将现有基础模型的能力打磨到极致,巩固自己的优势领域,同时多做一些尝试,多做一些探索。

如果说V3.1是在“术”的层面精益求精,

我们当然期待R2,能够在“道”的层面的质变飞跃。

让我们保持耐心,

于无声处听惊雷,静待“R2”亮剑时,

那时,DeepSeek能像年初那样,

再一次,

惊艳全世界。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询