我要投稿

聊聊DeepSeek V3.1体验，稳健升级但惊喜不足

发布日期：2025-08-21 09:58:42 浏览次数： 3515

作者：甲木未来派

微信搜一搜，关注“甲木未来派”

抱歉断更了这么久，前几天一直在忙企业服务相关的事情，

去河南调研分享了几天，回北京后又跟百度的小伙伴们对「养猪吧少年— AI养猪」活动进行复盘直播~

忙完后看这几天AI的发展，真的是AI一天，人间一年。

阿里的Qwen-Image-Edit，智谱的AutoGLM，还有神秘的nano banana等等..

就在整个AI圈都在翘首以盼，猜测DeepSeek传说中的推理模型R2何时能“亮剑”的时候，19号晚上七点，DeepSeek悄无声息地上线了V3.1版本。

今天就来看看DeepSeek的V3.1效果如何，结论先行：

上下文窗口扩充，变成128K
指令遵循能力得到一点点提升（体感并不明显）
ToolUse、Coding能力有所提升
关于文本创作方面体感不明显。

一句话总结，符合+0.1版本的更新，除了上下文外整体效果提升并不明显，本次版本尝试混合推理和一些其他的小改进。

没有铺天盖地的宣传，就是这么一次版本号+0.1的更新，却也是在AI圈里激起了一阵不小的涟漪。

那么问题来了，这次版本号仅增加0.1的更新，到底更新了哪些东西？

先说UI界面最明显的变化，就是把深度思考（R1）中的「R1」去掉了...

我们来看看DeepSeek V3.1的实际能力，看看它在这次进化中，到底藏了哪些“真功夫”？

V3.1的核心更新速览

咱们先来看看这次更新的“官方说明书”和社区里的第一波反馈。V3.1的核心升级点非常明确，主要集中在两个方面：

关键更新 1：上下文窗口翻倍至128k

如果说大模型的上下文窗口是它的“记忆力”，那这次升级，相当于直接把DeepSeek的短期记忆从能记住一本杂志，提升到了能记住一本中篇小说的水平。

128k的上下文窗口，意味着模型可以一次性“阅读”和处理10万个汉字的内容。

实际测试也很准确，我将一份大约300万字的《十日终焉》发送给DeepSeek，让他帮我总结内容。它告诉我们它只能阅读了前3%，也就是将近9-10万字。

同时也给到了前10万字，也就是第1章至第43章内容的总结。

这块就不多说了，其它家的模型很多都已经支持128k了，这算是一个常规的更新，在多轮对话、长文档分析、代码库理解层面有一些应用。

关键更新 2：编程与代码能力再精进

这次更新在开发者社区里反响最热烈的，就是其代码能力的再次增强。

在Hugging Face和Reddit上，已经有不少开发者放出了初步的评测结果。

特别是在Aider这个专门评估AI代码能力的基准测试上，V3.1的表现也比较亮眼，有网友已经抢先测试，V3.1得分是71.6%，在开源模型中表现很突出。

当然，我们得客观一点，基准测试的成绩斐然，就像是“考试状元”，但这并不完全等同于在真实、复杂多变的开发环境中的“实战能力”。

所以，它到底是不是真的那么能打，还得我们亲自上手试试。

V3.1的实际场景表现

接下来，就是大家最喜欢的“talk is cheap, show me the case”环节，我们直接上实测！

场景一：128k长文本处理能力

由于之前我们上传的《十日终焉》第一卷内容，DeepSeek只阅读了前3%。这次我们就截取前3%的内容，也就是前43章，字数大约10万字。

上传给DeepSeek后，让它帮我们概括内容，同时加上常规长文本“大海捞针”的测试。

可以看到这次V3.1的表现还不错。它准确地概括了文章的核心设定，章节的主要情节发展总结的也很不错。

这证明了它确实“读完”并“读懂”了整份长文档。

场景二：文本创作能力

小七姐之前开源过一次风格化迁移的prompt，用来对中文经典文学风格进行提炼，

之后再把提炼出来的结果给到AI模型进行参考，这里结合deepseek的长文本提升就能做更多的尝试。

这里用当时测评Qwen3的案例：“中文经典文学风格迁移测评”，看一下这次DeepSeek的表现。（Prompt可以看之前小七姐的文章）

提炼出来的风格化Json 「此处略」

基于上述文本风格，为我编写一篇3000字的小说（两回合），关键词：哪吒，敖丙，抽龙筋，闹海，自尽

注意：
直接生成文本内容，不要做任何标注和解释。
注意年代与叙事顺序符合史序
不要采用原风格中与西游记相关的特定人名、地名、特定修辞

仿照《西游记》的叙事风格，来写哪吒闹海的故事。

如果你之前看到过小七姐的测评，就会知道，这次DeepSeek的表现和Qwen3的表现相比，是不相上下的。

这里再看我在我们皆为历史尘埃，但 AI 或能听见其间的心跳 -- “每个小人物，都值得一部史诗”（附Prompt）中写的大事件中的小人物刻画prompt，

文本风格和流畅度还是很不错的。

场景三：常规编程任务

接下来，我们来检验一下社区里被吹爆的“代码能力”。

案例1：“表情符号反应堆”

我们来模拟一个真实的前端开发需求，让它来实现一个甲木之前用Qwen3的做过“表情符号反应堆”的游戏。

先来看一下之前Qwen3的表现。

再把同样的提示词发送给DeepSeek，来看一下它的表现。

我认为DeepSeek在这个案例中生成的要比当时的Qwen3版本效果好上一丢丢。

首先美观度上要比Qwen3稍微强一点，其次使用Web Audio API生成了不同情况下的音效反馈，最后在功能上实现了本地存储，使用localStorage来保存最高分记录，还在玩法层面加入了combo连击机制。

案例2：“情绪价值营销的大师”

再来用甲木之前的“情绪价值营销的大师”的卡片，测试一下DeepSeek v3.1的能力。感兴趣的可以看Claude帮你来做「情绪价值营销」（附prompt）文章

输入「国产3A游戏黑神话：钟馗」，直接生成：

最终生成的卡片虽然美观度差了一些，但是对文本的理解能力还是可以的。

用一句充满画面感、力量感和宿命感的话，直接唤醒了大家血液中的文化基因和英雄情结，直接与那些渴望变强、不惧挑战的玩家共鸣。

案例3：文本杂志编排能力

这里我拿@摸鱼小李的文本杂志排版prompt进行测试，直接把一段长文本给到deepseek，然后让它基于文本内容出设计方案，

确定格式方案之后，它可以直接进行处理：

这样就把冯骥微博上的那段文字变成了一份杂志，排版舒适，样式精美。

之后我们对于长文本的展示都可以采用这种方法。

场景四：常识与推理能力初探

再看看V3.1在处理一些融合了常识和逻辑的“陷阱”问题时表现如何。

这类问题往往更能考验一个模型是否只会“算术”，还是真的具备了一定的“世界知识”。

案例1： 每次模型更新大家都热衷问的问题....

案例2：再来看一个2025年年高考全国一卷的一道数学题。

发送给DeepSeek后，立即就开始了证明过程，

最后给到了答案。

可以看出，V3.1展现了自己具备基础的数学能力和推理能力。

在这之后，我也拿之前写的商业分析应用的prompt逐一测试，

效果相比之前一个版本略有提升，但效果不太明显，这里就不给大家展示了。

结语

测评下来，可以感觉到DeepSeek V3.1的能力有所提升但并不明显。

关于代码层面难以给我们特别突出的体验，一方面是Qwen的模型、K2的模型以及智谱GLM-4.5，效果都很优秀，而Deepseek V3.1在这些模型中的表现并没有特别亮眼的地方。

V3.1并没有给大家带来特别大的预期，但更像是一次“承上启下”的稳健升级。

它在现有V3的优秀架构基础上，针对长文本处理和代码方向进行了“一些优化”，而且在这个迭代中，它也尝试着把混合推理纳入它的范畴，做一些尝试。

这可能是DeepSeek的策略：在推出新模型（V4/R2）之前，先将现有基础模型的能力打磨到极致，巩固自己的优势领域，同时多做一些尝试，多做一些探索。

如果说V3.1是在“术”的层面精益求精，

我们当然期待R2，能够在“道”的层面的质变飞跃。

让我们保持耐心，

于无声处听惊雷，静待“R2”亮剑时，

那时，DeepSeek能像年初那样，

再一次，

惊艳全世界。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-05

刚刚，蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型

2026-01-05

这大概就是Skills能够降维打击n8n的原因吧！

2026-01-05

HiMarket 重磅升级：Agent 的下一站，AI 开放平台

2026-01-05

Skills比MCP更重要？更省钱的多！Python大佬这观点老金测了一周终于懂了

2026-01-05

对比 GLM 4.7 和 MiniMax 写代码，我看到了不同的 AI 人格

2026-01-04

字节Seed：大概念模型来了，推理的何必是下一个token

2026-01-04

MIT团队推出递归语言模型！不改架构、不扩窗口，上下文处理能力扩展百倍

2026-01-04

MIT发现让AI变聪明的秘密，竟然和人类一模一样

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

英特尔发布“2纳米级”工艺CPU，你的AI PC性能即将暴涨50%

2025-10-11

实测｜DeepSeek-V3.2-Exp三大升级：长文本、多轮对话、开发支持

2025-10-21

ChatGPT 成人模式要来了，但作为成年人我一点都不高兴

2025-10-15

一万两千字，教你用ClaudeCode，解锁10倍生产力。

2025-10-09

我错了，Gemini 做PPT不是“一般”，是“封神”。（尤其挖到第3层功能后…）

2025-11-03

大家都在问

2025四大AI怎么选？每月20美金，谁能当你的“全能外挂”？

2026-01-02

AGI的终极形态，是分布式集体智能？

2025-12-31

Manus联合创始人张涛：智能体Agent的终极形态是什么？

2025-12-31

Claude skills 底层逻辑是什么？

2025-12-31

LLM、RAG、微调、多模态，这些概念的「产品意义」是什么？

2025-12-30

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

为什么大多数 Agent 项目，最终都没能跑进核心业务系统？

2025-12-25

一口气看完了200+企业的300多个AI案例，我发现了什么？

2025-12-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

聊聊DeepSeek V3.1体验，稳健升级但惊喜不足

V3.1的核心更新速览

关键更新 1：上下文窗口翻倍至128k

关键更新 2：编程与代码能力再精进

V3.1的实际场景表现

场景一：128k长文本处理能力

场景二：文本创作能力

场景三：常规编程任务

案例1：“表情符号反应堆”

案例2：“情绪价值营销的大师”

案例3： 文本杂志编排能力

场景四：常识与推理能力初探

结语

案例3：文本杂志编排能力