我要投稿

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

发布日期：2026-04-21 09:58:55 浏览次数： 2432

作者：React中文社区

微信搜一搜，关注“React中文社区”

Kimi的开发团队昨夜公布了 K2.6 版本，并且依然是开源的。

然而更引人注目的是，其编程实力不单在开源领域达到顶尖水准（SOTA），甚至超越了两款著名的闭源模型。

在SWE-Bench Pro测试中得分58.6，此成绩胜过了GPT-5.4 (xhigh) 与 Claude Opus 4.6 (max effort)。

换言之：一款开源模型，在性能上击败了当前几乎最顶尖的两大闭源对手。

对于开源编程模型而言，这恐怕是首次在主流基准测试中展现出如此明确的压制性优势。

诚然，大家心里都清楚，基准分数仅是故事的一部分……K2.6还藏着一个兼具力量与美学的Agent集群功能，稍后我会深入探讨。

硬核跑分

我们先来检视一下硬核数据。

K2.6 在编码及Agent相关基准上几乎实现了近乎全面的领先：

• SWE-Bench Pro：得分58.6（开源领域最佳）

• SWE-Bench Verified：80.2

• SWE-Bench Multilingual：76.7

• Terminal-Bench 2.0：66.7

• HLE w/ tools：54.0

• BrowseComp：83.2

• LiveCodeBench v6：89.6

其在数学和视觉能力上同样不俗，AIME 2026得分高达96.4，而MathVision w/ python也取得了93.2分。

一位业内人士转发了Kimi的官方推文并评论称：

“ 开源领域的新标杆！SWE-Bench Pro 58.6的成绩，超越了GPT-5.4 (xhigh) 和 Claude Opus 4.6 (max effort)。Kimi的迭代速度正不断加快，堪称顶级的开源模型开发团队。

超越跑分

当然，我们都明白，测试分数高是一方面，能否在实际应用场景中承受长时间、高强度的作业压力，则是完全不同的考验。

既然我们都想到了这点，Kimi团队显然也意识到了……因此K2.6此次在这方面的提升，或许比分数本身更值得我们留意。

它具备了连续运转12小时而不崩溃的稳定能力。

官方提供的一个实例是：利用K2.6在Mac环境下，使用Zig语言在本地部署Qwen3.5-0.8B模型。整个任务包含超过4000次工具调用，历经14轮迭代，耗时整整12小时。

最终，它实现了193 tokens/sec的推理速率，这一表现比 LM Studio还要快出20%。

另一个实例则更加硬核：它对一个名为exchange-core的金融撮合引擎进行了全面重构。在13小时内，执行了逾千次工具调用，并修改了超过4000行代码。结果是中等负载下的吞吐量提高了185%，整体性能跃升133%。

简而言之，K2.6已能像一位可靠的软件工程师一样，持续工作十多个小时而中途不出差错。

此外，它对编程语言毫无偏好。无论是Rust、Go、Python，还是前端技术与DevOps工作流，均能稳定胜任。官方的说法是：

“ 跨语言和框架的泛化能力。

据Vercel反馈，K2.6在Next.js基准测试中的性能提高了50%以上。而CodeBuddy则报告其长上下文稳定性增强了18%，工具调用成功率高达96.60%。

另外，K2.6还带来一项极为实用的优化：完成任务的平均步骤数较K2.5版本减少了约35%。

步骤的减少直接带来了token消耗的降低、出错概率的下降以及执行速度的提升。

能够用更短的路径找到正确解法，这本身就是衡量模型“智能”水平的一种更直观的方式。

其内部的Kimi Code Bench基准测试结果也印证了此点：K2.6的分数从K2.5的57.4跃升至68.2，涨幅接近20%。

300智能体协同作战

接下来，便是本次更新的重头戏。

K2.6的Agent集群功能，尽管自K2.5版本已开始引入，但个人感觉，直到这次才算真正迈向成熟。

我们仅需下达一个任务，它便能自动进行拆解，并创建出一批扮演不同角色的“分身”，让这些分身并行处理。

K2.5的上限为100个子Agent和1500步，到了K2.6，这个数字被直接提升至 300个子Agent与4000步。

一人指令，一队执行。

我自然是要亲自上手体验一番的。

实战测试：编程工具分析

我向K2.6的Agent集群下达了一条指令：

“ 请利用Agent集群为我生成一套关于‘2025-2026全球AI编程工具市场分析’的交付材料，包括：一份10页的行业分析PDF，一张Excel数据表，以及一个15页的PPT。

随后，它便启动了任务。

它首先耗时数分钟来规划执行方案，将整个任务分解为12个研究维度：

涵盖了市场与竞争格局、主流工具深度剖析、开源生态、技术对比、商业模式、企业采纳度、技术趋势、安全治理乃至区域市场差异。

每个维度都需要进行独立的资料搜集、深度分析与内容撰写。

紧接着，就是其“无限分身”大显身手的时刻。

自主组建项目团队

K2.6首先自动生成了12个子代理，每个代理都拥有专属的名字、头像和清晰的角色分工。

例如，有负责进度编纂的专家、翻译专家、专职撰稿的“海明威”、业务顾问、数据分析师以及质量控制专家……

总计12个代理，各司其职。

其交互效果相当酷炫，强烈推荐亲身体验。看到这个阵仗时，我确实有点惊讶，这简直是为我量身组建了一个项目团队啊。

接着，这12个Agent便投入了并行工作。

它们启动了内置的浏览器环境（Kimi's Computer），同时在网络上搜寻不同维度的资料，浏览了成百上千个网页以收集信息。

一小时自动化流水线

整个工作流程被划分为几个主要阶段：

Phase 1：宏观扫描（完成5轮搜索）

Phase 2：维度分解（12个维度定义完毕）

Phase 3：并行深度研究（12个子代理同步工作）

Phase 4-6：交叉验证与洞察提炼

随后进入产物生成阶段：

Stage 2：报告撰写（9个章节加执行摘要）

Stage 3：Excel数据表制作

Stage 4：PDF文档生成（12页专业报告）

Stage 5：PPT生成（15页演示文稿）

在制作阶段，它又并行派生出三个子代理，分别负责Excel、PDF和PPT。三者同时开工。

此时我观察到一个细节：

负责PDF的代理，实际上是在沙箱环境里通过编写Python代码来生成文件。它安装了Chromium，并利用HTML转PDF的技术来保证排版质量。

期间甚至出现了一个小插曲：生成的报告中图片尺寸有误，一个Agent发现后主动修改CSS代码进行了修复。

整个流程，耗时约一个钟头。

最终交付

最后，它向我交付了三份完整的文件包：

一份PDF格式的行业报告，封面设计颇具专业感，包含目录、章节和数据图表。内容覆盖了市场格局（例如Copilot占42%市场份额）、采纳率（84%开发者在用，但企业信任度仅29%）、技术动向（Agentic Coding革命、MCP协议标准）、安全方面的挑战以及中国市场的特色（30%渗透率，年复合增长率38.4%）等。

一份Excel数据表，包含了主要AI编程工具的功能、定价及用户量级对比。

EXCEL表格，内含多个工作表

一份15页的PPT，附带了图表、数据和分析框架。

当然，我以挑剔的眼光（毕竟这个主题恰好是我的专业领域）审视了一番，大的纰漏确实没有，但细微之处仍有些许瑕疵。

因此，若想直接用此内容出版书籍，还需仔细审阅。但作为日常参考、学习或进行初步分析，其质量已绰绰有余。

不过瑕疵并非关键，此处的重点在于：这仅仅是一句话指令，耗时一小时，且全程无人干预的产出。

如果把这任务交给别的工具，它很可能就直接撂挑子了……

而现在，我仅输入一句话，玩了几局游戏回来，所需的文件就已经井然有序地准备好了。

如果非要挑剔什么缺点，那就是耗时略长，但这主要归咎于我布置的任务本身相当复杂。

全栈开发能力升级

除了Agent集群，K2.6在前端生成方面也有显著升级。

官方同时展示了K2.6 Agent的前端实力：

WebGL Shader 动画：可直接编写GLSL/WGSL代码，实现液态金属、焦散效果、光线追踪等高级特效。

Video Hero Section：能调用视频生成API创建电影级别的hero区域，并将其合成到页面中，与滚动效果同步。

3D 场景：运用Three.js + React Three Fiber构建逼真的3D场景，并结合GSAP ScrollTrigger实现滚动驱动的动画效果。

设计语言理解：无论是粗野主义、电影质感、瑞士网格，还是Y2K镀铬风格和杂志排版，K2.6都能理解这些设计术语，并输出具有相应氛围感的网页。

不单是前端，此次更关键的突破在于后端支持：用户注册登录 + 数据库，仅需一个prompt即可搞定前后端。

它已从“帮我画个页面”进化为“帮我生成一个完整的应用”。

官方还发布了一个内部的Kimi Design Bench，用于衡量前端设计能力。K2.6 Agent与Google AI Studio上的Gemini 3.1 Pro对比，Kimi胜出47.5%，平局21.1%，Google胜出31.4%。

开源的深远意义

有网友评论道：

“ 跑分固然亮眼，但真正的变革在于其自主性。当一个模型能连续运行数小时、协调多个Agent、并跨技术栈交付成果时，瓶颈就从‘如何编写代码’转变为‘应该创造什么’。

而这一切，都是开源的。

模型权重已发布在HuggingFace上，API也已开放，并提供了专门的Kimi Code CLI工具。其价格仅为Claude Opus 4.6的六分之一。

网友们也几乎是一边倒地刷屏好评：

另一位用户宣称：

“ 开源社区不再是追赶者了，它开始引领潮流。（Open-source is no longer catching up, it's starting to set the pace.）

回顾一下时间线，K2.5于今年1月底发布，而K2.6在4月就已到来。不足三个月，便又完成了一次大版本迭代。

正如前述业内人士所言「Kimi的迭代速度正不断加快」，事实的确如此。

结语

K2.6的发布释放了一个信号：AI编程工具的赛道，已从“比拼模型分数”转向“比拼实际办事能力”。

基准分是入场券，而Agent集群才是核心产品力。

单人输入一句话，300个Agent并行协作一小时，交付你所期望的全部成果。

开源模型，有史以来第一次，不再仅仅是追随者。这让我不禁开始期待：

当K3版本问世时，又将是何等景象？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-05

商汤SenseNova-Skills来了，全套办公技能：从凌乱数据到精美PPT直接交付_tag2

2026-06-04

腾讯开源了 Agent Memory，让 AI 真正记住你。_tag2

2026-06-04

AionUi 统一接管 OpenClaw 与 Hermes Agent

2026-06-04

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

2026-06-03

微软开源Intelligent Terminal：基于Windows Terminal、集成原生Agent能力

2026-06-02

让 Agent 拥有超强记忆，TencentDB Agent Memory 开源了！

2026-06-02

Qwen3-ASR：阿里开源的语音识别大模型，一行命令干掉 Whisper

2026-06-02

拥抱 AI Agent 时代：12条工程实践指南

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

阿里开源龙虾组合来了：HiClaw + CoPaw，内存占用大幅降低，还能直接操作本地环境

2026-03-12

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30