免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


快手在 AI 上,渐入佳境

发布日期:2025-09-05 20:32:47 浏览次数: 1538
作者:MacTalk

微信搜一搜,关注“MacTalk”

推荐语

快手AI技术再获突破,Keye-VL 1.5模型在短视频理解上超越GPT-4o,展现精准场景应用能力。

核心内容:
1. Keye-VL 1.5模型在短视频理解上的技术突破
2. 快手AI技术如何与业务场景深度结合
3. 未来AI技术在短视频领域的应用前景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

早上六点多起来,送家人去机场,路上打开车窗,感受到了丝丝凉意。看来,今年的夏天就这样宣告结束了。创业后的这几年,感觉时间过得越来越快,一不留神就是一个月,然后就是一个季度。继续写点东西吧,在时间的长河里留点痕迹。

之前,我曾写过一篇快手推荐大模型的文章,没想到特受欢迎,很多用户留言让我继续讲讲快手。

巧了,我爸是快手的用户,老头每天睡觉前,打开直播,把手机放到枕边,听老家几个网红用方言絮叨家长里短的事情,多少也是一种消遣时间的方式。就因为这个连接,我对快手多了几分特殊的情感连接。

之前的文章我写到了快手的推荐大模型,有人问,是不是快手这家公司,只做了推荐大模型和视频生成大模型,其他的一概不碰?看来这还真是有不少的信息差。其实早在六月底,快手就开源过多模态大模型 Keye-VL,当时我们团队还测试过,感觉它对短视频的理解能力相当不错。

Keye-VL 1.5 模型

这周,我们 CTO 发现,快手悄悄发布了 Keye-VL 的 1.5 版本。目前模型权重已经开源。注意,参数只有 8B,适合中小企业低成本部署使用。

和市面上常见多模态大模型不同,Kwai Keye 不是一味追求通用性,而是更侧重短视频场景。根据权威的基准测试集 Video-MME 的数据, Keye-VL-1.5-8B 在短视频的数据集中,超过了 GPT-4o 以及同等规模参数的其他模型,表现还是相当不错。

做个测评,下面是一段快手上的短视频,输入给 Keye-VL-1.5 后,提问:大狗咬小狗的耳朵是为什么?

Keye 思考了一会,给出了下面的回答。

太强了。同样的视频和同样的问题,我问 ChatGPT 和 Gemini,他们都无法准确判断,只是给出来一些可能的原因,让我自己推测。这侧面说明了 Keye 可以准确理解视频的意图。

大家感兴趣可以自己去试试,Hugging Face 中有 Demo 入口。

从 Keye 的重点上,其实能看出快手做模型的思路:他们优先考虑的是怎么和业务场景结合。虽然我没有和快手内部同学直接交流,但有一个可能性很高的推测:Keye 的视频理解能力,很可能会和之前提到的推荐大模型结合。推荐的本质是理解用户与内容的匹配关系,而更强的视频理解力,意味着模型能更准确地捕捉视频中的元素、情境和情绪,自然就能提升推荐的准确度。推荐的上限,取决于视频理解的下限。

另外,最近谷歌的 Nano Banana 模型很火,我早上刚看了他们核心团队的解读。谷歌的研究员认为,多模态的理解和生成能力,本质上是一体两面的关系。理解更强,生成时模型能更好地保持一致性、控制细节。所以我猜测,后面 Keye 的模型和可灵视频模型也可以形成协同。

整体有一点是可以确认的:随着模型能力的提升和使用成本的下降,快手完全有机会把对短视频的理解力延伸到业务链条的更深处。除了推荐之外,还有很多场景是天然的刚需,比如内容审核、直播风控、选题推荐、智能剪辑等。

拿内容审核来说,现在无论是快手还是其他平台,都依赖一支不小的人工团队,去判断视频里是否存在违规或敏感内容。效率是一方面,更重要的是一致性和尺度把握,这对人工来说始终是个挑战。而如果模型的理解能力足够强,它就能自动识别视频中的人物、场景和语义,提前做出风险判断,人工审核团队只需要聚焦在边界模糊的个案上。这样既能减少人力消耗,也能让整体审核标准更统一。

再比如直播风控。过去很多风控措施是事后处理,比如违规内容已经出现,平台再去干预。模型如果能实时理解视频内容,就能做到提前预警和快速响应,把潜在风险拦在发生之前。

至于选题推荐和剪辑工具,就更贴近创作者日常了。一个能深入理解视频内容的模型,可以给创作者提示哪些题材更有潜力,或者在剪辑时自动识别精彩片段、生成转场和字幕。这类能力,一旦落地,不只是提升效率,更是直接改变了内容生产的方式。

总之,这里面有不少机会。

后面,我们聊聊 Kwai Keye 的具体技术细节。这次的模型里,其实有不少值得关注的创新。我在 GitHub 上找到了他们发布的技术报告,里面把关键的架构和训练方法都写了出来。坦白讲,Keye-VL-1.5 能在 8B 规模上做到如此强悍的视频理解能力,背后一定离不开这些技术上的突破。

整体架构

总体来看,Kwai Keye 的多模态大模型思路,是先针对文本、图片、视频等不同模态,各自用最合适的方式去提取和编码特征;然后通过投影映射,把这些特征统一转化为模型能够理解的 Token;最后交由底层的 Qwen3-8B 语言模型,在同一框架下进行融合理解和生成。这样一来,模型就能同时具备对自然语言和视觉内容的综合处理能力。

在这个通用框架下,Keye 做了几处关键优化。图像输入这块,单张图片最多可以转成 20,480 个视觉 token,确保细节不被丢掉。为了能让模型吃进不同分辨率、不同大小的图片,团队把原本只能处理固定分辨率的 SigLIP 编码器,改造成了一个支持原生动态分辨率的版本。简单理解,就是它不再强行把所有图片缩放到一个尺寸,而是能自适应不同分辨率。

在这个过程中,还加入了二维旋转位置编码(2D RoPE),帮助模型更精准地理解图像里的空间关系。训练上,他们借鉴了 NaViT 的打包方式,让模型在处理多分辨率输入时更稳健,同时配合 FlashAttention 这样的高效注意力机制,把高分辨率的细节和整体吞吐性能结合起来。

视频侧则采用 Slow–Fast 的策略:变化剧烈的画面用更清晰但帧数更少的方式捕捉,稳定画面则以更高帧率但低分辨率的方式维持连续性,再通过时间戳和特殊标记来保持顺序。这种设计思路,更多是为了在细节捕获和算力开销之间找到一个平衡点。

对比来看,目前行业内大多数多模态视频模型还是比较粗放的,大家常见的做法是从视频里均匀抽取固定数量的帧,不管画面变化大不大,都一视同仁地送进模型。

这样虽然简单,但容易错过关键动作,也浪费在大量重复帧上。也有一些模型尝试通过时序建模来弥补,比如在视觉编码器里加上 3D 卷积或时序 Transformer,用有限的帧去推断动作连续性。但这些方法没能解决一个核心问题:关键帧没有得到足够算力,而大量重复帧又浪费了预算。

传统模型的问题是关键帧没得到足够算力,普通帧又浪费了预算,Keye 的“慢通路 + 快通路”就是专门来解决这个矛盾的。它没有把所有帧一锅端,而是通过分流机制,自动区分关键帧和普通帧。

关键帧用高清但低帧率的方式捕捉细节,普通帧用低分辨率但高帧率维持连续性,再加上时间戳和特殊标记来保证顺序。这种自适应分配思路,在现有多模态模型里还是少见的,也更贴合短视频这种既有高动作片段,又夹杂大量重复画面的场景。

这也是为什么在前面的测评里,Keye 能精确抓到包出现的时间段。

当然,模型底层结构只是能力的起点。能不能在实际场景里真正跑起来,还要看三方面:预训练的数据量和质量,后续的精细调优,以及底层工程的稳定性。架构解决的是能不能做,但模型的最终效果,更多取决于怎么训和用什么数据。也正因为如此,除了结构上的创新,Keye 在预训练和后训练上也做了不少针对性的优化。

预训练

快手在 Keye 的预训练数据上,既用了大规模的开源资源,也自建了一批更贴近业务的样本。整体规模超过 1T tokens,任务覆盖六个方面:图像描述、OCR/VQA、定位与计数、交错多图文、视频理解以及纯文本。在 OCR 和文档类任务里,还额外加入了渲染式构造的数据,以覆盖更细的长尾场景,尤其是中文任务。

感觉快手的做法其实也带给行业另一个思路。不是每家公司都能像 OpenAI 一样追求所谓的通用大模型,但在有限的资源下,完全可以选择服务好自己的核心场景。说白了,就是先把自家业务里最需要、最独特的数据补齐,让模型在自己最在意的场景里做到别人做不到。

模型能有自己的风格,很大程度上也来自于这些独有的业务数据,而这些数据和模型能力的深度捆绑,其实才是最难被复制、也最能带来壁垒的地方。

当然,数据不能只拼数量,还得有质量保证。快手筛数据这块做得挺细,流程是一层一层筛下去,先用模型和自动判别方法把那些低质量、不相关的内容先剔出去,然后再用算法把重复和可能泄漏的数据清掉。到最后,真正留下的,是既能代表主流内容,也能覆盖到快手生态里各种边界场景数据。

毕竟模型能力的天花板,很大程度上就由预训练数据决定。只有数据量足够大、类型足够丰富,同时每一轮都严格筛选、去重、保证数据质量,模型才可能学到真正的全场景适应能力。

上图是他们预训练的流程。我试着用自己的理解给你通俗易懂的讲出来。研究这些技术内容也挺有趣,因为我们每天都在谈 AI,谈大模型,如果能够大致看看它的运行原理,其实在关键时候,是能够帮助我们更好的使用模型的。至少,它能让我们理解现在新发布的这些模型之间,到底有什么区别。

快手在 Kwai Keye 的预训练上,整个流程分成了四步,每一步其实都是围绕一个核心目标:既让模型能贴合业务场景,又不过度依赖某一类数据。

第一步,是单独训练视觉编码器。团队用 SigLIP-400M 的权重初始化 ViT,再通过对比学习持续预训练,让视觉模块在大规模数据中打下基础,同时尽快适应快手内部的数据分布。

第二步,是跨模态对齐。视觉和语言模块在这一阶段保持不动,只优化中间的投影层,把图像和文本的特征对齐,先把接口磨合好。

第三步,是多任务预训练。所有参数解冻后,模型进入全链路的端到端训练。训练数据覆盖了图文匹配、OCR、VQA、视频等多模态任务,让模型真正学会在不同模态之间切换和理解。

第四步,是退火训练。团队在精选的高质量数据上做微调,把上下文长度从 8K 扩展到 128K,同时把 RoPE 的逆频率从 1e6 调整到 8e6,让模型在更长的序列下保持稳定推理。

在这个阶段,数据配比也经过特别设计:大约 50% 来自图像任务,24% 来自视频,26% 来自文本,可以看出整体偏向视频和视觉场景。这里的退火,借用物理学里的说法,就像金属加热再慢慢冷却,让内部结构更稳定。换到训练里,它的意思是在大规模训练之后,再用更高质量的数据矫正和打磨,让模型表现更稳健。

如果换个角度来看,可以把这个流程想象成一套训练课程。第一课是练眼力,让模型先学会看清图像细节。第二课是学翻译,把视觉和语言的接口打通。第三课是全队合练,让文字、图片、视频一起登场,磨合成整体。第四课是精修和扩展,在更高质量的数据里提升水准,并拓展记忆力。最后再做一次综合测评,把不同训练结果融合起来,避免偏科。当然,这只是便于理解的类比,真实的训练过程会复杂得多。

其实这种分阶段多轮预训练,在大模型圈子里已经算是基本功了,市面上不少团队也会这么做。但快手这套方案,整体看下来还是更贴着自家业务来规划细节。尤其是最后那步参数融合,把不同阶段、不同数据类型下的模型结果再综合一下,目的就是别让模型在某一项能力上偏科。

预训练让模型具备了基本的多模态理解力,但现实中的业务问题往往远比训练数据复杂,既有跨模态输入,也有多轮推理和变化多端的交互需求。单靠基础能力,模型很容易在这些复杂任务前卡壳,只会给出套路化的、机械的答案。

后训练

后训练的本质,是把模型拉到更接近真实业务的环境里再磨一遍。靠大规模预训练,Keye 已经能理解图文视频,但在复杂场景里,底层能力往往还不够。行业里的共识是,大模型要想真正落地,就必须在基础之上,用更贴近真实任务的数据做精细化的打磨,让它不仅会答标准题,还能应对业务里的复杂问题。

快手在 Keye-VL-1.5 的后训练上,整体分成了两个方向:先让模型的基础表现和回答习惯更稳,再提升它的多步推理能力。

第一步,监督微调和偏好优化。这一阶段更像是打基础。团队用大约 750 万条多模态样本对模型进行监督微调,任务覆盖图文理解、OCR、VQA、视频问答和写作生成等场景。目的不是给模型新增技能,而是通过多样化任务暴露潜在错误,再有针对性地修正。

随后引入多偏好优化(MPO),不只看答案正不正确,还要判断输出是否更符合用户习惯和业务需求。这种方式比单一的人类偏好对齐更鲁棒,能让模型表现更稳定自然。

随后通过多偏好优化,把答案是否好用作为核心指标。模型的输出会经过人工和模型双重打分,那些更贴近用户习惯和业务需求的回答会被强化,而不合适的部分则会被反复修正。

这样下来,模型在常规任务和主流场景下的表现会更加稳定自然。

第二步,推理能力训练。推理是多模态大模型的门槛。快手先用一个冷启动流水线来生成和筛选长链推理数据:先把问题重写、合并,让任务更复杂;再为每个问题生成多条推理路径;之后过滤掉低质量的过程;再对结果和过程做双重评估;最后引入人工修正,形成高质量样本。这样模型在冷启动阶段就能学会把复杂问题逐步拆解。

在此基础上,团队采用了 GSPO 强化学习。不同于只看最终答案的传统方式,这里既要求答得对,还要推理过程条理清晰,支持多模态的奖励信号。遇到复杂任务时,模型也能按步骤拆解思路,不至于卡死。

最后还有一轮对齐训练,用来修正实际使用中暴露出来的问题,比如答案冗长、逻辑跳跃、不符合指令要求等,同时也让模型在指令遵循、思考-回答格式和偏好对齐上更贴近真实需求。经过这样迭代修正,模型逐渐学会在复杂问题上既能答准,也能答得有条理。

整体来看,这些训练方式已经逐渐成为多模态大模型的常见做法,不同团队会结合自己的业务场景去优化。快手的重点放在视频和内容理解上,这与它的业务天然契合。但无论采用哪种方式,模型能否真正落地,最终还是取决于数据、算力和工程的持续投入。推理训练只是走向实用化的一步,后面还有训练架构和系统层面的优化工作。

训练架构优化

接下来就说说 Kwai Keye 在训练架构上的一整套优化思路。

训练 Keye 这样规模的多模态模型,难点往往不在算法,而在工程:消耗的资源多,训练时间长,一旦中断就可能让几周的成果白费。快手在 Keye-VL-1.5 的训练里,也用了行业里常见的做法,但在几个环节上做了强化,这里面有一些在工程层面相对少见的改进。

1)并行训练:把大模型切得更细

常见的大模型训练一般会结合张量并行、数据并行和流水线并行,把任务分摊到多张 GPU 上。Keye 在这套组合拳的基础上,又加了 FSDP 和 ZeRO-3,把参数、梯度、优化器状态都分片处理。这样一来,显存利用率更高,吞吐也更稳定,更适合上千 GPU 的大规模集群。这一步的意义在于,让 8B 模型也能高效地跑多模态和长上下文任务。

2)容错机制:出故障也能分钟级恢复

大模型训练时间往往按周计算,中途宕机很常见。如果恢复要几个小时,损失就很大。Keye 这里用的是分布式检查点加分层存储(NVMe 和 OSS),最新进度会被不断保存下来,出问题时能在分钟级恢复,而不是从头来过。这让长周期训练的稳定性大大提高。

3)参数融合和蒸馏:避免模型偏科

不同阶段、不同数据配比下训练出来的模型,往往各有长短板。Keye 在最后加了一步融合,把多个模型的能力平均在一起,再通过多轮蒸馏压缩进一个统一模型。这样能避免只擅长某一类任务,整体表现更均衡。

4)高效算子和混合精度:支撑大规模输入

Keye 还在训练里用上了 FlashAttention v2 和混合精度(BF16/FP8)。前者提升了高分辨率图像和长序列任务的处理效率,后者则在保证稳定性的同时压缩了算力消耗。没有这些优化,像 128K 上下文和两万多个视觉 token 这样的输入几乎跑不动。

整体来说,Keye 的训练架构不是凭空造新轮子,而是在常见方案的基础上,把容易出问题的环节补强。更细的并行切分,更快的恢复,更稳的融合,再加上更高效的算子,这些组合起来,才让模型在 8B 规模下依然能把视频和长上下文的能力做得更强。

终于写完了。

这大概是我最近写得最技术向的一篇文章,前后也查了不少资料,难免有理解不到位或者表达不准确的地方,欢迎大家在评论区留言指正。快手这套多模态大模型,其实行业内很多人没注意过,我愿意花点时间把技术细节梳理出来,一方面是自我学习,另一方面也想让更多人了解这些还没被广泛关注到的底层技术变化。

写下来最大的感受,其实就是这类模型的工程细节特别多,每一步都得落到实际需求上来,没什么花活,都是一点点试出来、磨出来的。也不想用太多评价词,我越来越觉得,快手这家公司蛮有趣的。Keye-VL 这款多模态模型大家可以关注下,应该不会让你失望。

如果感兴趣,你还可以进一步看看他们的技术报告:

https://arxiv.org/pdf/2509.01563

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询