推荐语
DeepSeek-V3.1在编程领域超越Claude 4 Opus,成为开源大模型新标杆,实测表现惊艳。
核心内容:
1. V3.1三大升级:思考模式优化、输出token减少、智能体能力提升
2. 思维链压缩技术实现更简洁高效的答案生成
3. 实测对比展示V3.1在编程任务中的卓越表现
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
DeepSeek迎来升级,发布V3.1,在Aider编程榜单拿下了76.3%高分,超过Claude 4 Opus,开源大模型中,编程再次拿下第一名,是目前最好的开源编程大模型:这篇文章通俗总结下,它是如何做到的,以及一手实测了DeepSeek-V3.1接入到智能体的编程能力,感兴趣的可以看看。同样的问题,如果提问GPT4o,问它你是GPT-5吗,它会说是的,很明显这是错误:大模型认清自身是谁的问题,尤其模型升级次数多了后,准确回答难度就会变大。根据DeepSeek介绍,本次主要升级了三个方面:2)输出token减少,但同时取得了同等或更好的答案3)更强的智能体能力,标志着迈出智能体时代第一步。效率就是生产力,回复快质量高,永远都是软件升级的方向,这次升级后在推理效率方面,V3.1也与OpenAI相当,如下网友评价所示:V3.1 思考模式,输出Token数减少了20%以上,但是如下图所示得到答案与R1相比更好:怎么理解这些背后的逻辑呢?为啥DeepSeek要强调输出Token数变少,但是答案还是很好?首先,我们要理解这里的Token数变少,指代输出的答案Token数变少,而不是思维链的Token数变少;其次,为啥输出Token变少,问题难度就变大了呢?举个通俗的例子:想象一下两个任务:
显然,任务B要难得多。你需要更深入地理解电影,精准地捕捉核心观点,并找到最精炼的词句来表达,任何废话和冗余都是不允许的。这对作者的概括能力、语言功底和逻辑组织能力是更大的考验。
最后,想清楚以上问题后,上面如何做到的呢?官方给出的解释,技术就是思维链压缩。传统CoT: “约翰有5个苹果,他吃了2个,所以还剩下5-2=3个。然后他又买了4个,所以现在有3+4=7个。因此,答案是7。”
压缩后输出: “约翰吃完剩3个,加上新买的4个,总共7个。”
然后生成很多个压缩思维链并拿去训练,使用强化学习技术,奖励答案的正确性,同时奖励回复的简洁性,一顿训练后,就得到了回复更简洁的回答。其实这背后还有一个很让人深思的问题,为啥不直接通过回复简洁性奖励来训练,而是还要特意间接通过压缩思维链。“压缩思维链”训练是一种更聪明、更稳定、效果更好的方法,它解决了“单纯奖励简洁性”所带来的根本性问题。测试下官网,实际验证下,输入如下问题,不选择DeepThink模式,我看了回答不仅完整:语言确实也更加精炼,如下红线所示,最后总结相当符合人性化:如果选择DeepThink模式,看到它的思考思维链变得更加精简了:从DeepSeek升级看,智能体也是重点方向,再次论证了AIGC的重要一步必然是智能体能力的提升。在编码智能体测试中,DeepSeek-V3.1性能碾压自己的R1、V3,实现对自己的全面超越:大概解释下这些评测框,感兴趣的可以大概了解。SWE:全称是 Software Engineering Agent benchmark,用于测试智能体完成软件开发任务的能力。TerminalBench:是另一个评估编程能力的标准测试集合(benchmark),侧重命令行环境中的编程任务。同时在搜索智能体(Search Agent) 能力上,V3.1也是得到了巨大飞跃。接下来重点说说,这意味着什么?能给我们带来哪些好处?大模型作为智能体的大脑,如果它能更好辅助智能体的其他部分,那就意味着它更加agentic了。因此,DeepSeek-V3.1的进步,使得智能体开发者,能够更轻松地构建出更强大、更可靠、更智能的Agent。具体来说,举一个例子,DeepSeek-V3.1的进步,使得智能体不再需要与用户或系统进行冗长的“来回确认”,它能更快地理解意图、诊断问题并生成正确方案。接下来和大家一起体验下DeepSeek-V3.1的智能体能力,因为根据DeepSeek介绍,支持轻松接入Claude Code智能体,好,咱们完整实践一遍。npm install -g @anthropic-ai/claude-code
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropicexport ANTHROPIC_AUTH_TOKEN=DEEPSEEK_API_KEYexport ANTHROPIC_MODEL=deepseek-chatexport ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat
第三步,定位到文件目录,直接输入claude,启动编程智能体:接下来叫智能体帮我们分析代码错误,结果提示如下错误:这是API key没有配置好导致的,刚才把一对{}多写了,删除这些字符,然后就好了。接下来提问它,分析代码文件bug,它会自动读取本地文件并分析,然后定位到test.py: 继续问我是否需要编辑test.py文件,我们先不编辑它,然后尝试让它中文回复我们:回复 1,也就是Yes,它能直接帮助我们修改代码文件:可以在智能体里直接运行代码,输入命令 python test.py,可以看到运行结果:我们再从磁盘打开文件看看,已经全部自动修复bug:这就是DeepSeek-V3.1的智能体能力,全程使用非常丝滑,回复效率得到了很好的提升。以上就是,使用DeepSeek最新模型V3.1,接入Claude code智能体后,编程改bug,基本不用手动了,直接自动分析文件,自动修改bug,甚至连文件都没打开过。AI智能体,让人人都能跑代码,一个新的时代,它来了。本文介绍了DeepSeek最新升级V3.1,这是一个全新的版本,拿下开源编程全球榜单第一名。文章分析了思维链压缩。“思维链压缩”是一种通过简化推理过程、在保持正确性的前提下提升回答精炼度和效率的训练方法,使模型能够以更少的输出 token 给出更高质量答案。最后体验了DeepSeek-V3.1接入到Claude Code智能体后,编程修复bug,整个丝滑。