我要投稿

作为投资方，我们试了试Kimi K2.5

发布日期：2026-02-03 20:44:42 浏览次数： 2679

作者：Monolith砺思资本

微信搜一搜，关注“Monolith砺思资本”

1月27日，Moonshot AI正式发布并开源Kimi K2.5。Kimi K2.5用原生多模态打破了视觉与推理的零和博弈，实现了Coding with Vision，更用Agent集群（Agent Swarm）架构重新定义了AI的并行生产力。

Monolith作为Moonshot AI最早期的投资方，我们不仅关注其参数的跃升，更关注其在真实工程环境中的表现。为了验证K2.5的Coding with Vision能力，我们昨天用自己的官网做了测试，并综合了海外一线科技媒体的最新解读，从实测体验、海外舆论、成本结构到落地建议，希望尽量客观地为大家呈现一个真实的Kimi K2.5。

1. Coding with Vision

在Venture Beat的报道语境中，Kimi K2.5被重新定义为“All-in-one Model”。它不再是一个挂载了视觉编码器的语言模型，而是基于1.5T混合Token训练的原生多模态模型。

这意味着视觉不再是辅助，而是与代码同等重要的第一性原理。

最直观的突破在于Coding with Vision（视觉编码）。以往的模型需要我们用文字费力描述“左边留白多一点，按钮要圆角的”，而K2.5能直接读懂设计稿的像素、布局甚至审美风格。

在官方演示中，它能通过一段视频重构整个网站。而在我们的实测中，这种能力表现得更具侵略性——它正在模糊设计师与前端工程师的边界。

2. 核心实测

为了验证K2.5的工程落地能力，我们没有使用标准测试题，而是将Monolith的官网首页截图直接“喂”给了Kimi K2.5，Prompt极其简单：“复刻这个网页，保持视觉风格一致。”

kimi复刻的Monolith官网首页

效果不错。

首先是审美对齐了。K2.5没有生成一个结构正确但丑陋的HTML骨架，而是精准捕捉到了Monolith官网的的艺术风格：大面积的留白、极细的Grid线条、衬线体与无衬线体的混排，它都通过Tailwind CSS完美复现。

同时交互还原，仅凭一段视频，它甚至推断出了图片时的交互动作，并主动补全了CSS动画代码。

可以发现K2.5在通过视频进行的网页复刻任务上已经不限于只通过OCR，而是体现了对UI、设计语言的多模态理解能力。

虽然一些细节上的处理还是没有做到位，但仅凭一段5s的视频和一句提示词就能还原到这个程度已经足够让人满意了。

除了视觉，Agent Swarm（集群）也是本次的重头戏。Kimi官方博客介绍道，K2.5经过并行智能体强化学习（PARL）训练，能够自主管理多达100个子智能体的智能体群，执行多达1500个协调步骤的并行工作流程，而无需预定义角色或手工设计的工作流程。

当我们模拟VC行研场景，要求“调研全球AI Agent Infra赛道”时，给出了如下的提示词：

我们需要梳理一下目前全球AI Agent Infra赛道的最新情况。请你重点关注北美/中国近期融资在A轮以后的头部初创公司。

梳理出至少10家代表性公司的最新产品动态和融资情况。

找一下头部科技媒体或知名VC对该赛道的最新分析文章。

集群模式迅速拆解了提示词背后的需求，将任务拆解成了四部分：中国/美国/科技媒体/VC研究，之后创建了四个专门的Agent负责每个对应模块的研究。每一个子Agent都有其任务进程，并行处理。

↔左右滚动查看Agent集群的工作流

在所有的子Agent的任务完成后，主Agent会汇总所有子Agent的任务结果，并形成最终的报告给用户。

经过我们的验证，报告所依据的事实基本属实，得到的观点也具有一定的参考价值。

Agent集群模式得到的报告（部分）

值得注意的是，因为Agent集群的设计，本次调研所花费的时间经过我们的测试比同类型其它产品（包括kimi的另一产品“深度研究”）速度更快。这有效提高了类似工作的效率。

K2.5的另一大杀手锏是极其激进的定价策略。

在HLE（Humanity’s Last Exam）基准测试中，K2.5以50.2%的得分超越了GPT-5.2(xhigh)和Claude Opus 4.5，而成本却低了一个数量级。

虽然目前的集群模式只是在Kimi产品端直接提供，但K2.5模型本身的API定价展现了Moonshot极大的野心。其缓存输入价格仅为$0.10/百万tokens。这意味着，对于开发者而言，在API上复刻类似Swarm的高上下文、多轮交互工作流，成本将逐渐不再是阻碍。

目前我们注意到，Openrouter、Ollama、TraeCN等平台都已经快速上线了Kimi K2.5模型。

3. 海外舆论的主线

K2.5的发布在硅谷引发了比K2时期更强烈的震动。VentureBeat、Constellation等媒体普遍认为，K2.5标志着开源模型从工具向合成劳动力（Synthetic Workforce）的进化。

VentureBeat敏锐地指出，企业关心的唯一指标是“AI把多少时间还给了你”。他们评论道：

"K2.5 suggests a future where the primary constraint on an engineering team is no longer the number of hands on keyboards, but the ability of its leaders to choreograph a swarm."

（K2.5预示着这样一个未来：工程团队的主要约束不再是键盘上有多少双手，而是其领导者编排“蜂群”的能力。）

Constellation Insights则认为K2.5是开源模型正在逐步紧逼闭源模型的又一例证：

"The lead between frontier models is quickly collapsing... Enterprises need to pay attention to what's happening as LLMs commoditize quickly."

（前沿模型与开源选项之间的领先优势正在迅速瓦解……随着大语言模型迅速商品化，企业需要密切关注正在发生的一切。）

Medium技术博主Mehul Gupta更是盛赞其原生多模态架构：

"At this scale, the usual trade-off disappears... K2.5 changes how AI sees, reasons, codes, and executes tasks in real-world settings."

（在这个规模下，通常的视觉与推理的权衡消失了……K2.5改变了AI在现实环境中观察、推理、编码和执行的方式。）

总体来看，围绕K2.5的海外舆论已明显超越了对模型参数或榜单成绩的讨论，而逐步形成了一条相对清晰的主线：开源大模型正在从辅助性工具转向可被组织与调度的“合成劳动力”。

4. 需要冷静看待的三件事

作为投资方，也有一些我们想冷静看待的方面。

第一，硬件门槛依旧存在。

虽然K2.5是开源的，但其1T参数（32B激活）的MoE架构对本地部署的显存要求极高。对于个人开发者以及初创企业而言，量化版出来之前，云端API可能是唯一的选择。