我要投稿

Kimi 发布k1.5思考模型：首个达到o1满血水平的多模态模型，还有完整训练技术报告

发布日期：2025-01-22 07:03:24 浏览次数： 5159

作者：Founder Park

微信搜一搜，关注“Founder Park”

1 月 20 日，Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。

Kimi k1.5的性能，如今已经全面追上现役全球最强模型——OpenAI o1满血版。

具体来说，在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到。

而在Short CoT模式下，Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。

短COT模式下，数学成绩显著高于GPT-4o和Claude Sonnet 3.5

同时，月之暗面也大方公开了这个满血版o1水平的强化学习模型的训练技术细节。

全文：https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

01 简单出奇迹，

首创long2short思维链

扒开Kimi k1.5 25页技术报告，可以清晰看到这款模型的技术创新之处。

当前，基于下一个token预测的语言模型，在计算规模上的扩展，已经得到了有效证明。

但模型Scaling仍受限于可用的数据量，为此，Kimi团队创新性地扩展了强化学习（RL）的应用，开辟出一条全新的路径。

它能够让LLM通过奖励机制进行探索性学习，从而自主扩展训练数据，从而实现计算规模有效扩展。

论文地址：https://github.com/MoonshotAI/kimi-k1.5

以下，是k1.5设计和训练的四大关键要素：

1. 长上下文扩展

2. 改进的策略优化

3. 简化框架

4. 多模态

接下来，我们一起深挖一下这些技术细节吧。

02 短CoT模型的上下文压缩

与业界普遍采用复杂技术做法不同，Kimi团队选择了一条更为优雅的技术路线——回归第一性原理。

他们证明了，无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型，也能让模型取得卓越的性能。

如上所见，我们已经看到了Kimi k1.5在多个权威基准测试中，取得了显著的突破。

那么，long2short是如何被实现的呢？

Kimi团队认为，可以将长CoT模型的推理先验转移到短CoT模型中，从而即使在有限的测试Token预算下也能提高性能。

模型合并

将长CoT模型和短CoT模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高Token的使用效率。

这种方法通过简单地平均两个模型的权重，将一个长CoT模型与一个短模型结合，得到一个新的模型，而无需进行训练。

最短筛选采样

由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。

也就是，先对同一问题采样n次，然后选择最短的正确响应进行监督微调。

DPO

利用长CoT模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本1.5倍的较长响应。

这些正负样本对数据集形成了用于DPO训练的成对偏好数据。

long2short强化学习

在标准强化学习训练阶段之后，团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的long2short强化学习训练阶段。

在第二阶段中，他们应用了「长度惩罚」，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。

03 强化学习基础设施

Kimi k1.5系统设计了一种迭代同步的RL框架，旨在通过持续的学习与适应来增强模型的推理能力。

该系统的一项关键创新是引入了部分回滚（Partial Rollout）技术，用于减少计算开销并优化复杂推理轨迹的处理。

如下图3a所示，RL训练系统通过迭代同步的方法运行，每次迭代包含回滚阶段和训练阶段。

在回滚阶段，由中央主控协调的回滚工作节点通过与模型交互生成回滚轨迹，这些轨迹是模型对各种输入生成的响应序列。在随后的训练阶段，训练工作节点访问这些经验以更新模型的权重。

这个循环过程使模型能够持续从其行为中学习，随着时间的推移调整其策略以提升性能。

长CoT强化学习的部分回滚技术

部分回滚（Partial Rollouts）能够通过同时管理长轨迹和短轨迹的回滚，有效地解决处理长CoT特性时的资源分配和效率挑战，进而实现长上下文强化学习（RL）训练的规模扩展。

该技术设定了一个固定的输出Token预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了Token限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。

此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。

如图3b所示，部分回滚系统通过在多次迭代中将长响应分解为多个片段来运行，显著降低了计算开销——系统无需一次性处理整个响应，而是逐步处理和存储片段，从而在保持快速迭代时间的同时生成更长的响应。

部分回滚的实现还提供了重复检测功能。系统能够识别生成内容中的重复序列并提前终止，从而减少不必要的计算，同时保持输出质量。

训练与推理的混合部署

研究者提出了一种用于训练和推理任务的混合部署策略，该策略利用Kubernetes的Sidecar容器共享所有可用GPU，将两种任务协同部署在同一个Pod中。这一策略的主要优势包括：

促进了资源的高效共享与管理，避免了训练节点因等待推理节点而处于空闲状态（当两者部署在不同节点时）
通过使用不同的部署镜像，训练和推理可以独立迭代，从而实现更好的性能
架构并不限于vLLM，还可以方便地集成其他框架

如图4所示，研究者在Megatron和vLLM的基础上实现了这一混合部署框架，从训练到推理阶段不到一分钟的转换时间，反向转换则约为十秒钟。

04 实验结果

由于k1.5是一个多模态模型，研究者对不同模态的各种基准进行了综合评估。基准测试主要包括以下三类：

Text Benchmark：MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark：HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark：MMMU, MATH-Vision, MathVista

k1.5长CoT模型

Kimi的k1.5长CoT模型通过长CoT监督微调和视觉-文本联合强化学习，在长距离推理上获得了显著的增强。

评估显示，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升，标志着多模态AI能力的显著进步。

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多种技术，包括传统监督微调方法、强化学习以及长到短知识蒸馏。

如表3所示，k1.5短CoT模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。

长上下文Scaling

研究者使用一个中型模型，来研究结合LLM的强化学习的扩展特性。如图5所示，随着训练的进行，模型响应长度和性能准确率同时增加。

尤其值得注意的是，在更具挑战性的基准测试中，响应长度的增长更为陡峭，这表明模型在处理复杂问题时学会生成更详尽的解决方案。

图6表明，模型输出的上下文长度与其问题解决能力之间存在显著的相关性。

最终，k1.5模型的运行能支持128k上下文长度，并在困难的推理基准测试中持续取得改进。

由长到短

研究者重点研究了long2short问题中的Token效率，特别是长CoT模型如何提升短模型性能。

如图7所示，提出的long2short强化学习算法在Token效率方面优于其他方法（如DPO和模型合并）。

值得注意的是，k1.5系列的所有模型（用橙色标记）在Token效率上都优于其他模型（用蓝色标记）。

05 思考模型，

进入冲刺

可以看到，在多模态推理技术路线上，Kimi又进了一步。

从2024年11月，他们首次推出的数学推理模型K0-math就展现出了在数学领域的领先性。

紧接着一个月后，K1视觉思考模型诞生，不仅继承了K0-math的数学底蕴，更突破性地解锁了视觉理解能力。

这意味着，K1不仅「会算」，还能「会看」——通过理解图片中的信息，并通过逐步推理得出答案。

如今，k1.5又继续向前推进了一步，在多个领域数理化、代码、通用中，刷新了SOTA，甚至能够媲美世界顶尖模型。

下一步，Kimi依旧会发力多模态推理，继续迭代出能够在更多模态、更多领域、具备更强通用能力的Kn系列的模型。

k1.5已经带来了诸多惊喜，还真是有点期待下一代模型的到来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

小参数，大能力 | 星际视觉语言大模型再进化，0.8B轻量版正式发布

2026-06-16

RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践

2026-06-12

PaddleOCR 3.7 正式接入ONNX Runtime，一个参数换后端，轻量部署新选择

2026-06-11

本地部署OCR，可能是AI进单位的第一道门

2026-06-08

正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

2026-05-30

还在用 MinerU 解析 PDF？这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%，速度还快 3.68 倍

2026-05-30

Qwen-VLA：迈向通用具身智能的统一动作框架

2026-05-25

罗福莉说的“伪多Agent”，我试了OmniWork后发现，真全干专家长这样

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

让“龙虾”帮你自动赚钱！OpenClaw Seedance 2.0 视频生成全攻略

2026-03-29

一个神奇的视频生成 Skills，实测，狂喜

2026-04-27

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-21

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

2026-04-09

千问发布Qwen3.5-Omni全模态模型，超越Gemini3.1 Pro？附实测~

2026-03-31

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

2026-04-15

GLM-5V-Turbo：多模态Coding，图像即代码

2026-04-02

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw