免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


快手开源Keye-VL1.5:8B多模态模型细节揭秘,短视频理解很强!

发布日期:2025-09-04 21:02:52 浏览次数: 1557
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

快手开源Keye-VL1.5:8B多模态模型在短视频理解上表现惊艳,揭秘其创新Slow-Fast视频编码技术。

核心内容:
1. 模型架构与关键技术:SigLIP视觉编码器+Qwen3大模型+2D-RoPE增强
2. 革命性Slow-Fast视频编码:双路径处理实现高效短视频理解
3. 四阶段训练策略与高质量数据壁垒:从对齐到128K长上下文扩展

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是刘聪NLP。

昨天的阅兵都看了吗,太酷了,我真是看的热泪盈眶。让我看到了一个民族从苦难走向了辉煌的伟大复兴之路。

说回正题,快手前两天开源了多模态大模型 Keye-VL1.5,模型大小8B,混合推理模型,在短视频理解上效果尤为突出。

Github: https://github.com/Kwai-Keye/Keye
HF: https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

咱们还是老规矩,先看看模型的相关细节,再针对模型特点进行一些实测。

模型结构还是经典的三件套,视觉编码器(ViT)、MLP映射层,大模型解码器(LLM),这里视觉编码器采用SigLIP-400M-384-14初始化,大模型采用Qwen3-8B初始化。

PS:Qwen3含金量依旧再提高,哈哈哈~

在视觉编码器部分,采用2D-RoPE增强高分图像理解,并且采用了500B Tokens进行了预训练操作,同时图像和视频处理阶段,采用差异化的编码策略。

对于图像,每张图像总编码数可达到20480个Token,足以覆盖数千万像素以上的图像,保证每张图像的细节都可以被精准捕获。

对于视频,创新地提出了Slow-Fast 视频编码,这个部分也是Keye-VL1.5可以在短视频理解中效果很好地关键。Slow-Fast 视频编码有两个通路,

  • 慢速路径:用于捕捉快速变化帧的视觉信息,帧数较少但分辨率更高。
  • 快速路径:用于捕捉相对静态帧的细微视觉信号,帧数较多但分辨率较低。

通俗点来讲,就是把视频里关键动作用高清慢镜头细看,静止背景用流畅快镜头扫过,既省算力又不丢细节

通过图像块相似度的函数来判断快慢,第一帧始终定义为慢帧,对于后续帧,若与最新慢帧的图像块相似度超过 95%,则标记为快帧,否则标记为新的慢帧。同时为了平衡帧数与总 Token 预算,将快帧的 Token 预算设为慢帧的 30%

Keye-VL1.5预训练阶段,涉及4个部分,

Stage0:ViT增量预训练,利用SigLIP-400M进行参数初始化,采用SigLIP对比损失继续训练 ViT,以支持原生动态分辨率 + 2D RoPE;

Stage1:跨模态对齐,冻结 ViT & LLM,仅训练 MLP 投影层,对齐视觉-语言;

Stage2:多任务预训练,全参数端到端训练,涉及图像描述、OCR、Grounding、VQA文等任务;

Stage3:退火训练,通过高质量样本模型训练,同时长上下文扩展到128K,引入长视频、长文本和高精度图像数据。

这里的视频数据也是重点,除了开源数据之外,还是用了大量高质量短视频,这里对视频的处理也有说法(看paper吧,这里就不多说了),这也是为啥Keye-VL1.5擅长短视频理解的原因。

所以大模型训练的壁垒,还是高质量的训练数据。

Post-Training也是4个阶段,先是用750万多模态问答数据进行SFT,再用42.6万偏好数据进行MPO,同时为了增强长思考能力,进行了LongCoT冷启动,同时利用GSPO进行迭代通用强化学习和对齐强化学习(重点做指令遵循、格式规范、偏好对齐、安全伦理)。

在模型训练过程中,为了提高整体训练稳定性和速度,在ViT部分仅用数据并行,最大化吞吐;在LLM部分使用 DP + TP + PP 三层混合,同时支持 ZeRO-1/2/3 切换;在 128K 长序列阶段,额外引入 上下文并行(CP),将序列维度切分到多卡,显著降低单卡显存峰值。

还采用动态负载均衡机制,对每个样本提前计算显存开销,生成成本标签,将高成本样本均匀打散到多GPU,解决慢节点拖慢全局的问题。

整体模型指标如下:

聊完技术细节,开启实测!

先说一下整体感受,

  • 带/think可以深度思考,带/no_think直接回答,什么都不带是auto模式,模型会自己判断
  • Keye-VL1.5对于短视频的理解很不错,一些玩梗的视频可以理解
  • OCR和图片理解也不错
  • Grounding做了专门的优化,可以精准定位
  • 因为模型只有8B大小,对于世界知识、空间逻辑还有空间变换还是存在一定的欠缺,例子可以看,之前的横测六大顶流开源多模态大模型 | 附13大场景实例

视频理解

Prompt:猫咪在第几秒的时候接到了球

回答正确,非常准确,2秒起跳,3秒接到球,很细致

Prompt:解读一下这个视频内容

回答正确,你会发现没有设置的时候,它会先自己选择,用/no_think模式还是/think模式

之前测试的快闪视频,也不错,也能回答对

Prompt:魔人啾啾第几个出现

回答正确,第11个角色

OCR

Prompt:请识别图中的文本内容,言简意赅。

图片来自网络
图片来自网络

回答正确

报告分析

主要考察多模态大模型的内容理解能力、知识储备的能力,上传一个体检报告,看看能不能分析出来问题,以及相关的注意事项。

Prompt:请帮我解读一下报告内容。

回答正确

Grounding

Prompt:找到奔跑的人,返回坐标值[x_min, y_min, x_max, y_max] /think

回答,偏了一点

整体效果还是不错的~

最后想说,Keye-VL1.5给我的感觉,像是短视频老司机,梗能听懂,细节也能抓住。

当然,它还不完美,空间逻辑、世界知识会掉链子,但8B体量能有这水平,已经相当能打了,期待后续开源更强更大的版本。

说白了,多模态大模型卷到现在,还是要看落地场景,拼技术也拼数据质量,

快手这波开源,细节,干货还是挺多的,Slow-Fast 视频编码也确实有点意思,

就像我之前说的,国内的大模型也是越来越走出自己的风采了~

PS:都看到这里,来个点赞在看关注吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询