我要投稿

快手在 AI 上，渐入佳境

发布日期：2025-09-05 20:32:47 浏览次数： 2478

作者：MacTalk

微信搜一搜，关注“MacTalk”

早上六点多起来，送家人去机场，路上打开车窗，感受到了丝丝凉意。看来，今年的夏天就这样宣告结束了。创业后的这几年，感觉时间过得越来越快，一不留神就是一个月，然后就是一个季度。继续写点东西吧，在时间的长河里留点痕迹。

之前，我曾写过一篇快手推荐大模型的文章，没想到特受欢迎，很多用户留言让我继续讲讲快手。

巧了，我爸是快手的用户，老头每天睡觉前，打开直播，把手机放到枕边，听老家几个网红用方言絮叨家长里短的事情，多少也是一种消遣时间的方式。就因为这个连接，我对快手多了几分特殊的情感连接。

之前的文章我写到了快手的推荐大模型，有人问，是不是快手这家公司，只做了推荐大模型和视频生成大模型，其他的一概不碰？看来这还真是有不少的信息差。其实早在六月底，快手就开源过多模态大模型 Keye-VL，当时我们团队还测试过，感觉它对短视频的理解能力相当不错。

Keye-VL 1.5 模型

这周，我们 CTO 发现，快手悄悄发布了 Keye-VL 的 1.5 版本。目前模型权重已经开源。注意，参数只有 8B，适合中小企业低成本部署使用。

和市面上常见多模态大模型不同，Kwai Keye 不是一味追求通用性，而是更侧重短视频场景。根据权威的基准测试集 Video-MME 的数据， Keye-VL-1.5-8B 在短视频的数据集中，超过了 GPT-4o 以及同等规模参数的其他模型，表现还是相当不错。

做个测评，下面是一段快手上的短视频，输入给 Keye-VL-1.5 后，提问：大狗咬小狗的耳朵是为什么？

Keye 思考了一会，给出了下面的回答。

太强了。同样的视频和同样的问题，我问 ChatGPT 和 Gemini，他们都无法准确判断，只是给出来一些可能的原因，让我自己推测。这侧面说明了 Keye 可以准确理解视频的意图。

大家感兴趣可以自己去试试，Hugging Face 中有 Demo 入口。

从 Keye 的重点上，其实能看出快手做模型的思路：他们优先考虑的是怎么和业务场景结合。虽然我没有和快手内部同学直接交流，但有一个可能性很高的推测：Keye 的视频理解能力，很可能会和之前提到的推荐大模型结合。推荐的本质是理解用户与内容的匹配关系，而更强的视频理解力，意味着模型能更准确地捕捉视频中的元素、情境和情绪，自然就能提升推荐的准确度。推荐的上限，取决于视频理解的下限。

另外，最近谷歌的 Nano Banana 模型很火，我早上刚看了他们核心团队的解读。谷歌的研究员认为，多模态的理解和生成能力，本质上是一体两面的关系。理解更强，生成时模型能更好地保持一致性、控制细节。所以我猜测，后面 Keye 的模型和可灵视频模型也可以形成协同。

整体有一点是可以确认的：随着模型能力的提升和使用成本的下降，快手完全有机会把对短视频的理解力延伸到业务链条的更深处。除了推荐之外，还有很多场景是天然的刚需，比如内容审核、直播风控、选题推荐、智能剪辑等。

拿内容审核来说，现在无论是快手还是其他平台，都依赖一支不小的人工团队，去判断视频里是否存在违规或敏感内容。效率是一方面，更重要的是一致性和尺度把握，这对人工来说始终是个挑战。而如果模型的理解能力足够强，它就能自动识别视频中的人物、场景和语义，提前做出风险判断，人工审核团队只需要聚焦在边界模糊的个案上。这样既能减少人力消耗，也能让整体审核标准更统一。

再比如直播风控。过去很多风控措施是事后处理，比如违规内容已经出现，平台再去干预。模型如果能实时理解视频内容，就能做到提前预警和快速响应，把潜在风险拦在发生之前。

至于选题推荐和剪辑工具，就更贴近创作者日常了。一个能深入理解视频内容的模型，可以给创作者提示哪些题材更有潜力，或者在剪辑时自动识别精彩片段、生成转场和字幕。这类能力，一旦落地，不只是提升效率，更是直接改变了内容生产的方式。

总之，这里面有不少机会。

后面，我们聊聊 Kwai Keye 的具体技术细节。这次的模型里，其实有不少值得关注的创新。我在 GitHub 上找到了他们发布的技术报告，里面把关键的架构和训练方法都写了出来。坦白讲，Keye-VL-1.5 能在 8B 规模上做到如此强悍的视频理解能力，背后一定离不开这些技术上的突破。

整体架构

总体来看，Kwai Keye 的多模态大模型思路，是先针对文本、图片、视频等不同模态，各自用最合适的方式去提取和编码特征；然后通过投影映射，把这些特征统一转化为模型能够理解的 Token；最后交由底层的 Qwen3-8B 语言模型，在同一框架下进行融合理解和生成。这样一来，模型就能同时具备对自然语言和视觉内容的综合处理能力。

在这个通用框架下，Keye 做了几处关键优化。图像输入这块，单张图片最多可以转成 20,480 个视觉 token，确保细节不被丢掉。为了能让模型吃进不同分辨率、不同大小的图片，团队把原本只能处理固定分辨率的 SigLIP 编码器，改造成了一个支持原生动态分辨率的版本。简单理解，就是它不再强行把所有图片缩放到一个尺寸，而是能自适应不同分辨率。

在这个过程中，还加入了二维旋转位置编码（2D RoPE），帮助模型更精准地理解图像里的空间关系。训练上，他们借鉴了 NaViT 的打包方式，让模型在处理多分辨率输入时更稳健，同时配合 FlashAttention 这样的高效注意力机制，把高分辨率的细节和整体吞吐性能结合起来。

视频侧则采用 Slow–Fast 的策略：变化剧烈的画面用更清晰但帧数更少的方式捕捉，稳定画面则以更高帧率但低分辨率的方式维持连续性，再通过时间戳和特殊标记来保持顺序。这种设计思路，更多是为了在细节捕获和算力开销之间找到一个平衡点。

对比来看，目前行业内大多数多模态视频模型还是比较粗放的，大家常见的做法是从视频里均匀抽取固定数量的帧，不管画面变化大不大，都一视同仁地送进模型。

这样虽然简单，但容易错过关键动作，也浪费在大量重复帧上。也有一些模型尝试通过时序建模来弥补，比如在视觉编码器里加上 3D 卷积或时序 Transformer，用有限的帧去推断动作连续性。但这些方法没能解决一个核心问题：关键帧没有得到足够算力，而大量重复帧又浪费了预算。

传统模型的问题是关键帧没得到足够算力，普通帧又浪费了预算，Keye 的“慢通路 + 快通路”就是专门来解决这个矛盾的。它没有把所有帧一锅端，而是通过分流机制，自动区分关键帧和普通帧。

关键帧用高清但低帧率的方式捕捉细节，普通帧用低分辨率但高帧率维持连续性，再加上时间戳和特殊标记来保证顺序。这种自适应分配思路，在现有多模态模型里还是少见的，也更贴合短视频这种既有高动作片段，又夹杂大量重复画面的场景。

这也是为什么在前面的测评里，Keye 能精确抓到包出现的时间段。

当然，模型底层结构只是能力的起点。能不能在实际场景里真正跑起来，还要看三方面：预训练的数据量和质量，后续的精细调优，以及底层工程的稳定性。架构解决的是能不能做，但模型的最终效果，更多取决于怎么训和用什么数据。也正因为如此，除了结构上的创新，Keye 在预训练和后训练上也做了不少针对性的优化。

预训练

快手在 Keye 的预训练数据上，既用了大规模的开源资源，也自建了一批更贴近业务的样本。整体规模超过 1T tokens，任务覆盖六个方面：图像描述、OCR/VQA、定位与计数、交错多图文、视频理解以及纯文本。在 OCR 和文档类任务里，还额外加入了渲染式构造的数据，以覆盖更细的长尾场景，尤其是中文任务。

感觉快手的做法其实也带给行业另一个思路。不是每家公司都能像 OpenAI 一样追求所谓的通用大模型，但在有限的资源下，完全可以选择服务好自己的核心场景。说白了，就是先把自家业务里最需要、最独特的数据补齐，让模型在自己最在意的场景里做到别人做不到。

模型能有自己的风格，很大程度上也来自于这些独有的业务数据，而这些数据和模型能力的深度捆绑，其实才是最难被复制、也最能带来壁垒的地方。

当然，数据不能只拼数量，还得有质量保证。快手筛数据这块做得挺细，流程是一层一层筛下去，先用模型和自动判别方法把那些低质量、不相关的内容先剔出去，然后再用算法把重复和可能泄漏的数据清掉。到最后，真正留下的，是既能代表主流内容，也能覆盖到快手生态里各种边界场景数据。

毕竟模型能力的天花板，很大程度上就由预训练数据决定。只有数据量足够大、类型足够丰富，同时每一轮都严格筛选、去重、保证数据质量，模型才可能学到真正的全场景适应能力。

上图是他们预训练的流程。我试着用自己的理解给你通俗易懂的讲出来。研究这些技术内容也挺有趣，因为我们每天都在谈 AI，谈大模型，如果能够大致看看它的运行原理，其实在关键时候，是能够帮助我们更好的使用模型的。至少，它能让我们理解现在新发布的这些模型之间，到底有什么区别。

快手在 Kwai Keye 的预训练上，整个流程分成了四步，每一步其实都是围绕一个核心目标：既让模型能贴合业务场景，又不过度依赖某一类数据。

第一步，是单独训练视觉编码器。团队用 SigLIP-400M 的权重初始化 ViT，再通过对比学习持续预训练，让视觉模块在大规模数据中打下基础，同时尽快适应快手内部的数据分布。

第二步，是跨模态对齐。视觉和语言模块在这一阶段保持不动，只优化中间的投影层，把图像和文本的特征对齐，先把接口磨合好。

第三步，是多任务预训练。所有参数解冻后，模型进入全链路的端到端训练。训练数据覆盖了图文匹配、OCR、VQA、视频等多模态任务，让模型真正学会在不同模态之间切换和理解。

第四步，是退火训练。团队在精选的高质量数据上做微调，把上下文长度从 8K 扩展到 128K，同时把 RoPE 的逆频率从 1e6 调整到 8e6，让模型在更长的序列下保持稳定推理。

在这个阶段，数据配比也经过特别设计：大约 50% 来自图像任务，24% 来自视频，26% 来自文本，可以看出整体偏向视频和视觉场景。这里的退火，借用物理学里的说法，就像金属加热再慢慢冷却，让内部结构更稳定。换到训练里，它的意思是在大规模训练之后，再用更高质量的数据矫正和打磨，让模型表现更稳健。

如果换个角度来看，可以把这个流程想象成一套训练课程。第一课是练眼力，让模型先学会看清图像细节。第二课是学翻译，把视觉和语言的接口打通。第三课是全队合练，让文字、图片、视频一起登场，磨合成整体。第四课是精修和扩展，在更高质量的数据里提升水准，并拓展记忆力。最后再做一次综合测评，把不同训练结果融合起来，避免偏科。当然，这只是便于理解的类比，真实的训练过程会复杂得多。

其实这种分阶段多轮预训练，在大模型圈子里已经算是基本功了，市面上不少团队也会这么做。但快手这套方案，整体看下来还是更贴着自家业务来规划细节。尤其是最后那步参数融合，把不同阶段、不同数据类型下的模型结果再综合一下，目的就是别让模型在某一项能力上偏科。

预训练让模型具备了基本的多模态理解力，但现实中的业务问题往往远比训练数据复杂，既有跨模态输入，也有多轮推理和变化多端的交互需求。单靠基础能力，模型很容易在这些复杂任务前卡壳，只会给出套路化的、机械的答案。

后训练

后训练的本质，是把模型拉到更接近真实业务的环境里再磨一遍。靠大规模预训练，Keye 已经能理解图文视频，但在复杂场景里，底层能力往往还不够。行业里的共识是，大模型要想真正落地，就必须在基础之上，用更贴近真实任务的数据做精细化的打磨，让它不仅会答标准题，还能应对业务里的复杂问题。

快手在 Keye-VL-1.5 的后训练上，整体分成了两个方向：先让模型的基础表现和回答习惯更稳，再提升它的多步推理能力。

第一步，监督微调和偏好优化。这一阶段更像是打基础。团队用大约 750 万条多模态样本对模型进行监督微调，任务覆盖图文理解、OCR、VQA、视频问答和写作生成等场景。目的不是给模型新增技能，而是通过多样化任务暴露潜在错误，再有针对性地修正。

随后引入多偏好优化（MPO），不只看答案正不正确，还要判断输出是否更符合用户习惯和业务需求。这种方式比单一的人类偏好对齐更鲁棒，能让模型表现更稳定自然。

随后通过多偏好优化，把答案是否好用作为核心指标。模型的输出会经过人工和模型双重打分，那些更贴近用户习惯和业务需求的回答会被强化，而不合适的部分则会被反复修正。

这样下来，模型在常规任务和主流场景下的表现会更加稳定自然。

第二步，推理能力训练。推理是多模态大模型的门槛。快手先用一个冷启动流水线来生成和筛选长链推理数据：先把问题重写、合并，让任务更复杂；再为每个问题生成多条推理路径；之后过滤掉低质量的过程；再对结果和过程做双重评估；最后引入人工修正，形成高质量样本。这样模型在冷启动阶段就能学会把复杂问题逐步拆解。

在此基础上，团队采用了 GSPO 强化学习。不同于只看最终答案的传统方式，这里既要求答得对，还要推理过程条理清晰，支持多模态的奖励信号。遇到复杂任务时，模型也能按步骤拆解思路，不至于卡死。

最后还有一轮对齐训练，用来修正实际使用中暴露出来的问题，比如答案冗长、逻辑跳跃、不符合指令要求等，同时也让模型在指令遵循、思考-回答格式和偏好对齐上更贴近真实需求。经过这样迭代修正，模型逐渐学会在复杂问题上既能答准，也能答得有条理。

整体来看，这些训练方式已经逐渐成为多模态大模型的常见做法，不同团队会结合自己的业务场景去优化。快手的重点放在视频和内容理解上，这与它的业务天然契合。但无论采用哪种方式，模型能否真正落地，最终还是取决于数据、算力和工程的持续投入。推理训练只是走向实用化的一步，后面还有训练架构和系统层面的优化工作。

训练架构优化

接下来就说说 Kwai Keye 在训练架构上的一整套优化思路。

训练 Keye 这样规模的多模态模型，难点往往不在算法，而在工程：消耗的资源多，训练时间长，一旦中断就可能让几周的成果白费。快手在 Keye-VL-1.5 的训练里，也用了行业里常见的做法，但在几个环节上做了强化，这里面有一些在工程层面相对少见的改进。

1）并行训练：把大模型切得更细

常见的大模型训练一般会结合张量并行、数据并行和流水线并行，把任务分摊到多张 GPU 上。Keye 在这套组合拳的基础上，又加了 FSDP 和 ZeRO-3，把参数、梯度、优化器状态都分片处理。这样一来，显存利用率更高，吞吐也更稳定，更适合上千 GPU 的大规模集群。这一步的意义在于，让 8B 模型也能高效地跑多模态和长上下文任务。

2）容错机制：出故障也能分钟级恢复

大模型训练时间往往按周计算，中途宕机很常见。如果恢复要几个小时，损失就很大。Keye 这里用的是分布式检查点加分层存储（NVMe 和 OSS），最新进度会被不断保存下来，出问题时能在分钟级恢复，而不是从头来过。这让长周期训练的稳定性大大提高。

3）参数融合和蒸馏：避免模型偏科

不同阶段、不同数据配比下训练出来的模型，往往各有长短板。Keye 在最后加了一步融合，把多个模型的能力平均在一起，再通过多轮蒸馏压缩进一个统一模型。这样能避免只擅长某一类任务，整体表现更均衡。

4）高效算子和混合精度：支撑大规模输入

Keye 还在训练里用上了 FlashAttention v2 和混合精度（BF16/FP8）。前者提升了高分辨率图像和长序列任务的处理效率，后者则在保证稳定性的同时压缩了算力消耗。没有这些优化，像 128K 上下文和两万多个视觉 token 这样的输入几乎跑不动。

整体来说，Keye 的训练架构不是凭空造新轮子，而是在常见方案的基础上，把容易出问题的环节补强。更细的并行切分，更快的恢复，更稳的融合，再加上更高效的算子，这些组合起来，才让模型在 8B 规模下依然能把视频和长上下文的能力做得更强。

终于写完了。

这大概是我最近写得最技术向的一篇文章，前后也查了不少资料，难免有理解不到位或者表达不准确的地方，欢迎大家在评论区留言指正。快手这套多模态大模型，其实行业内很多人没注意过，我愿意花点时间把技术细节梳理出来，一方面是自我学习，另一方面也想让更多人了解这些还没被广泛关注到的底层技术变化。

写下来最大的感受，其实就是这类模型的工程细节特别多，每一步都得落到实际需求上来，没什么花活，都是一点点试出来、磨出来的。也不想用太多评价词，我越来越觉得，快手这家公司蛮有趣的。Keye-VL 这款多模态模型大家可以关注下，应该不会让你失望。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业