免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek-V3.1发布,拿下全球开源第一,确实可以封神了!(附一手实测)

发布日期:2025-08-22 07:59:55 浏览次数: 1837
作者:郭震AI

微信搜一搜,关注“郭震AI”

推荐语

DeepSeek-V3.1在编程领域超越Claude 4 Opus,成为开源大模型新标杆,实测表现惊艳。

核心内容:
1. V3.1三大升级:思考模式优化、输出token减少、智能体能力提升
2. 思维链压缩技术实现更简洁高效的答案生成
3. 实测对比展示V3.1在编程任务中的卓越表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

DeepSeek迎来升级,发布V3.1,在Aider编程榜单拿下了76.3%高分,超过Claude 4 Opus,
开源大模型中,编程再次拿下第一名,是目前最好的开源编程大模型:
这篇文章通俗总结下,它是如何做到的,以及一手实测了DeepSeek-V3.1接入到智能体的编程能力,感兴趣的可以看看。
进入DeepSeek官网,先做个身份鉴定:
它的回复清晰明了。
同样的问题,如果提问GPT4o,问它你是GPT-5吗,它会说是的,很明显这是错误:
大模型认清自身是谁的问题,尤其模型升级次数多了后,准确回答难度就会变大。
1 整体升级
根据DeepSeek介绍,本次主要升级了三个方面:
1)支持思考和非思考模式
2)输出token减少,但同时取得了同等或更好的答案
3)更强的智能体能力,标志着迈出智能体时代第一步。
效率就是生产力,回复快质量高,永远都是软件升级的方向,这次升级后在推理效率方面,V3.1也与OpenAI相当,如下网友评价所示:
具体分析后两个升级,先看第二个:
V3.1 思考模式,输出Token数减少了20%以上,但是如下图所示得到答案与R1相比更好:
怎么理解这些背后的逻辑呢?为啥DeepSeek要强调输出Token数变少,但是答案还是很好?
首先,我们要理解这里的Token数变少,指代输出的答案Token数变少,而不是思维链的Token数变少;
其次,为啥输出Token变少,问题难度就变大了呢?举个通俗的例子:

想象一下两个任务:

  • 任务A(原版): 用500字写一篇影评,要求观点清晰、论据充分。

  • 任务B(压缩版): 用150字写一篇同样水平的影评。


显然,任务B要难得多。你需要更深入地理解电影,精准地捕捉核心观点,并找到最精炼的词句来表达,任何废话和冗余都是不允许的。这对作者的概括能力、语言功底和逻辑组织能力是更大的考验。

最后,想清楚以上问题后,上面如何做到的呢?官方给出的解释,技术就是思维链压缩。
如何理解思维链压缩呢?举个通俗的例子:

传统CoT: “约翰有5个苹果,他吃了2个,所以还剩下5-2=3个。然后他又买了4个,所以现在有3+4=7个。因此,答案是7。”

压缩后输出: “约翰吃完剩3个,加上新买的4个,总共7个。” 

然后生成很多个压缩思维链并拿去训练,使用强化学习技术,奖励答案的正确性,同时奖励回复的简洁性,一顿训练后,就得到了回复更简洁的回答。
其实这背后还有一个很让人深思的问题,为啥不直接通过回复简洁性奖励来训练,而是还要特意间接通过压缩思维链。“压缩思维链”训练是一种更聪明、更稳定、效果更好的方法,它解决了“单纯奖励简洁性”所带来的根本性问题。
测试下官网,实际验证下,输入如下问题,不选择DeepThink模式,我看了回答不仅完整:
语言确实也更加精炼,如下红线所示,最后总结相当符合人性化:
如果选择DeepThink模式,看到它的思考思维链变得更加精简了:
2 更强智能体
    从DeepSeek升级看,智能体也是重点方向,再次论证了AIGC的重要一步必然是智能体能力的提升。
    在编码智能体测试中,DeepSeek-V3.1性能碾压自己的R1、V3,实现对自己的全面超越:
    大概解释下这些评测框,感兴趣的可以大概了解。SWE:全称是 Software Engineering Agent benchmark,用于测试智能体完成软件开发任务的能力。TerminalBench:是另一个评估编程能力的标准测试集合(benchmark),侧重命令行环境中的编程任务。
    同时在搜索智能体(Search Agent) 能力上,V3.1也是得到了巨大飞跃。
    接下来重点说说,这意味着什么?能给我们带来哪些好处?
    大模型作为智能体的大脑,如果它能更好辅助智能体的其他部分,那就意味着它更加agentic了。因此,DeepSeek-V3.1的进步,使得智能体开发者,能够更轻松地构建出更强大、更可靠、更智能的Agent
    具体来说,举一个例子,DeepSeek-V3.1的进步,使得智能体不再需要与用户或系统进行冗长的“来回确认”,它能更快地理解意图、诊断问题并生成正确方案。
    3 体验智能体

    接下来和大家一起体验下DeepSeek-V3.1的智能体能力,因为根据DeepSeek介绍,支持轻松接入Claude Code智能体,好,咱们完整实践一遍。

    第一步,打开命令窗口或cmd窗口,输入下面命令:

    npm install -g @anthropic-ai/claude-code
    全局安装Claude code智能体

    第二步,配置环境变量:


    具体命令如下所示:

    export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropicexport ANTHROPIC_AUTH_TOKEN=DEEPSEEK_API_KEYexport ANTHROPIC_MODEL=deepseek-chatexport ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat


    第三步,定位到文件目录,直接输入claude,启动编程智能体:


    接下来叫智能体帮我们分析代码错误,结果提示如下错误:


    这是API key没有配置好导致的,刚才把一对{}多写了,删除这些字符,然后就好了。接下来提问它,分析代码文件bug,它会自动读取本地文件并分析,然后定位到test.py: 

    然后自动定位出文件bug:


    然后锁定bug位置:


    继续问我是否需要编辑test.py文件,我们先不编辑它,然后尝试让它中文回复我们:


    看到回复就都是中文了:


    直接修复bug:


    回复 1,也就是Yes,它能直接帮助我们修改代码文件:


    可以在智能体里直接运行代码,输入命令 python test.py,可以看到运行结果:


    我们再从磁盘打开文件看看,已经全部自动修复bug:


    这就是DeepSeek-V3.1的智能体能力,全程使用非常丝滑,回复效率得到了很好的提升。

    以上就是,使用DeepSeek最新模型V3.1,接入Claude code智能体后,编程改bug,基本不用手动了,直接自动分析文件,自动修改bug,甚至连文件都没打开过。

    AI智能体,让人人都能跑代码,一个新的时代,它来了。

    总结一下

    本文介绍了DeepSeek最新升级V3.1,这是一个全新的版本,拿下开源编程全球榜单第一名。

    文章分析了思维链压缩。“思维链压缩”是一种通过简化推理过程、在保持正确性的前提下提升回答精炼度和效率的训练方法,使模型能够以更少的输出 token 给出更高质量答案。

    最后体验了DeepSeek-V3.1接入到Claude Code智能体后,编程修复bug,整个丝滑。

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询