微信扫码
添加专属顾问
我要投稿
DeepSeek V3.1低调上线,128K上下文窗口和代码能力提升成亮点,稳健升级但惊喜不足。 核心内容: 1. 上下文窗口翻倍至128K,提升长文本处理能力 2. 编程与代码能力显著增强,基准测试表现突出 3. 整体升级稳健但创新突破有限,符合+0.1版本预期
抱歉断更了这么久,前几天一直在忙企业服务相关的事情,
去河南调研分享了几天,回北京后又跟百度的小伙伴们对「养猪吧少年— AI养猪」活动进行复盘直播~
忙完后看这几天AI的发展,真的是AI一天,人间一年。
阿里的Qwen-Image-Edit,智谱的AutoGLM,还有神秘的nano banana等等..
就在整个AI圈都在翘首以盼,猜测DeepSeek传说中的推理模型R2何时能“亮剑”的时候,19号晚上七点,DeepSeek悄无声息地上线了V3.1版本。
今天就来看看DeepSeek的V3.1效果如何,结论先行:
一句话总结,符合+0.1版本的更新,除了上下文外整体效果提升并不明显,本次版本尝试混合推理和一些其他的小改进。
没有铺天盖地的宣传,就是这么一次版本号+0.1的更新,却也是在AI圈里激起了一阵不小的涟漪。
那么问题来了,这次版本号仅增加0.1的更新,到底更新了哪些东西?
先说UI界面最明显的变化,就是把深度思考(R1)中的「R1」去掉了...
我们来看看DeepSeek V3.1的实际能力,看看它在这次进化中,到底藏了哪些“真功夫”?
咱们先来看看这次更新的“官方说明书”和社区里的第一波反馈。V3.1的核心升级点非常明确,主要集中在两个方面:
如果说大模型的上下文窗口是它的“记忆力”,那这次升级,相当于直接把DeepSeek的短期记忆从能记住一本杂志,提升到了能记住一本中篇小说的水平。
128k的上下文窗口,意味着模型可以一次性“阅读”和处理10万个汉字的内容。
实际测试也很准确,我将一份大约300万字的《十日终焉》发送给DeepSeek,让他帮我总结内容。它告诉我们它只能阅读了前3%,也就是将近9-10万字。
同时也给到了前10万字,也就是第1章至第43章内容的总结。
这块就不多说了,其它家的模型很多都已经支持128k了,这算是一个常规的更新,在多轮对话、长文档分析、代码库理解层面有一些应用。
这次更新在开发者社区里反响最热烈的,就是其代码能力的再次增强。
在Hugging Face和Reddit上,已经有不少开发者放出了初步的评测结果。
特别是在Aider这个专门评估AI代码能力的基准测试上,V3.1的表现也比较亮眼,有网友已经抢先测试,V3.1得分是71.6%,在开源模型中表现很突出。
当然,我们得客观一点,基准测试的成绩斐然,就像是“考试状元”,但这并不完全等同于在真实、复杂多变的开发环境中的“实战能力”。
所以,它到底是不是真的那么能打,还得我们亲自上手试试。
接下来,就是大家最喜欢的“talk is cheap, show me the case”环节,我们直接上实测!
由于之前我们上传的《十日终焉》第一卷内容,DeepSeek只阅读了前3%。这次我们就截取前3%的内容,也就是前43章,字数大约10万字。
上传给DeepSeek后,让它帮我们概括内容,同时加上常规长文本“大海捞针”的测试。
可以看到这次V3.1的表现还不错。它准确地概括了文章的核心设定,章节的主要情节发展总结的也很不错。
这证明了它确实“读完”并“读懂”了整份长文档。
小七姐之前开源过一次风格化迁移的prompt,用来对中文经典文学风格进行提炼,
之后再把提炼出来的结果给到AI模型进行参考,这里结合deepseek的长文本提升就能做更多的尝试。
这里用当时测评Qwen3的案例:“中文经典文学风格迁移测评”,看一下这次DeepSeek的表现。(Prompt可以看之前小七姐的文章)
提炼出来的风格化Json 「此处略」
基于上述文本风格,为我编写一篇3000字的小说(两回合),关键词:哪吒,敖丙,抽龙筋,闹海,自尽
注意:
直接生成文本内容,不要做任何标注和解释。
注意年代与叙事顺序符合史序
不要采用原风格中与西游记相关的特定人名、地名、特定修辞
仿照《西游记》的叙事风格,来写哪吒闹海的故事。
如果你之前看到过小七姐的测评,就会知道,这次DeepSeek的表现和Qwen3的表现相比,是不相上下的。
这里再看我在我们皆为历史尘埃,但 AI 或能听见其间的心跳 -- “每个小人物,都值得一部史诗”(附Prompt)中写的大事件中的小人物刻画prompt,
文本风格和流畅度还是很不错的。
接下来,我们来检验一下社区里被吹爆的“代码能力”。
我们来模拟一个真实的前端开发需求,让它来实现一个甲木之前用Qwen3的做过“表情符号反应堆”的游戏。
先来看一下之前Qwen3的表现。
再把同样的提示词发送给DeepSeek,来看一下它的表现。
我认为DeepSeek在这个案例中生成的要比当时的Qwen3版本效果好上一丢丢。
首先美观度上要比Qwen3稍微强一点,其次使用Web Audio API生成了不同情况下的音效反馈,最后在功能上实现了本地存储,使用localStorage来保存最高分记录,还在玩法层面加入了combo连击机制。
再来用甲木之前的“情绪价值营销的大师”的卡片,测试一下DeepSeek v3.1的能力。 感兴趣的可以看Claude帮你来做「情绪价值营销」(附prompt)文章
输入「国产3A游戏 黑神话:钟馗」,直接生成:
最终生成的卡片虽然美观度差了一些,但是对文本的理解能力还是可以的。
用一句充满画面感、力量感和宿命感的话,直接唤醒了大家血液中的文化基因和英雄情结,直接与那些渴望变强、不惧挑战的玩家共鸣。
这里我拿@摸鱼小李的文本杂志排版prompt进行测试,直接把一段长文本给到deepseek,然后让它基于文本内容出设计方案,
确定格式方案之后,它可以直接进行处理:
这样就把冯骥微博上的那段文字变成了一份杂志,排版舒适,样式精美。
之后我们对于长文本的展示都可以采用这种方法。
再看看V3.1在处理一些融合了常识和逻辑的“陷阱”问题时表现如何。
这类问题往往更能考验一个模型是否只会“算术”,还是真的具备了一定的“世界知识”。
案例1: 每次模型更新大家都热衷问的问题....
案例2:再来看一个2025年年高考全国一卷的一道数学题。
发送给DeepSeek后,立即就开始了证明过程,
最后给到了答案。
可以看出,V3.1展现了自己具备基础的数学能力和推理能力。
在这之后,我也拿之前写的商业分析应用的prompt逐一测试,
效果相比之前一个版本略有提升,但效果不太明显,这里就不给大家展示了。
测评下来,可以感觉到DeepSeek V3.1的能力有所提升但并不明显。
关于代码层面难以给我们特别突出的体验,一方面是Qwen的模型、K2的模型以及智谱GLM-4.5,效果都很优秀,而Deepseek V3.1在这些模型中的表现并没有特别亮眼的地方。
V3.1并没有给大家带来特别大的预期,但更像是一次“承上启下”的稳健升级。
它在现有V3的优秀架构基础上,针对长文本处理和代码方向进行了“一些优化”,而且在这个迭代中,它也尝试着把混合推理纳入它的范畴,做一些尝试。
这可能是DeepSeek的策略:在推出新模型(V4/R2)之前,先将现有基础模型的能力打磨到极致,巩固自己的优势领域,同时多做一些尝试,多做一些探索。
如果说V3.1是在“术”的层面精益求精,
我们当然期待R2,能够在“道”的层面的质变飞跃。
让我们保持耐心,
于无声处听惊雷,静待“R2”亮剑时,
那时,DeepSeek能像年初那样,
再一次,
惊艳全世界。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-21
2025-05-29
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-08-19
2025-06-19
2025-06-13
2025-05-28
2025-08-22
2025-08-22
2025-08-21
2025-08-20
2025-08-19
2025-08-19
2025-08-18
2025-08-18