微信扫码
添加专属顾问
我要投稿
快手开源Keye-VL1.5:8B多模态模型在短视频理解上表现惊艳,揭秘其创新Slow-Fast视频编码技术。核心内容: 1. 模型架构与关键技术:SigLIP视觉编码器+Qwen3大模型+2D-RoPE增强 2. 革命性Slow-Fast视频编码:双路径处理实现高效短视频理解 3. 四阶段训练策略与高质量数据壁垒:从对齐到128K长上下文扩展
大家好,我是刘聪NLP。
昨天的阅兵都看了吗,太酷了,我真是看的热泪盈眶。让我看到了一个民族从苦难走向了辉煌的伟大复兴之路。
说回正题,快手前两天开源了多模态大模型 Keye-VL1.5,模型大小8B,混合推理模型,在短视频理解上效果尤为突出。
Github: https://github.com/Kwai-Keye/Keye
HF: https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B
咱们还是老规矩,先看看模型的相关细节,再针对模型特点进行一些实测。
模型结构还是经典的三件套,视觉编码器(ViT)、MLP映射层,大模型解码器(LLM),这里视觉编码器采用SigLIP-400M-384-14初始化,大模型采用Qwen3-8B初始化。
PS:Qwen3含金量依旧再提高,哈哈哈~
在视觉编码器部分,采用2D-RoPE增强高分图像理解,并且采用了500B Tokens进行了预训练操作,同时图像和视频处理阶段,采用差异化的编码策略。
对于图像,每张图像总编码数可达到20480个Token,足以覆盖数千万像素以上的图像,保证每张图像的细节都可以被精准捕获。
对于视频,创新地提出了Slow-Fast 视频编码,这个部分也是Keye-VL1.5可以在短视频理解中效果很好地关键。Slow-Fast 视频编码有两个通路,
通俗点来讲,就是把视频里关键动作用高清慢镜头细看,静止背景用流畅快镜头扫过,既省算力又不丢细节。
通过图像块相似度的函数来判断快慢,第一帧始终定义为慢帧,对于后续帧,若与最新慢帧的图像块相似度超过 95%,则标记为快帧,否则标记为新的慢帧。同时为了平衡帧数与总 Token 预算,将快帧的 Token 预算设为慢帧的 30%
Keye-VL1.5预训练阶段,涉及4个部分,
Stage0:ViT增量预训练,利用SigLIP-400M进行参数初始化,采用SigLIP对比损失继续训练 ViT,以支持原生动态分辨率 + 2D RoPE;
Stage1:跨模态对齐,冻结 ViT & LLM,仅训练 MLP 投影层,对齐视觉-语言;
Stage2:多任务预训练,全参数端到端训练,涉及图像描述、OCR、Grounding、VQA文等任务;
Stage3:退火训练,通过高质量样本模型训练,同时长上下文扩展到128K,引入长视频、长文本和高精度图像数据。
这里的视频数据也是重点,除了开源数据之外,还是用了大量高质量短视频,这里对视频的处理也有说法(看paper吧,这里就不多说了),这也是为啥Keye-VL1.5擅长短视频理解的原因。
所以大模型训练的壁垒,还是高质量的训练数据。
Post-Training也是4个阶段,先是用750万多模态问答数据进行SFT,再用42.6万偏好数据进行MPO,同时为了增强长思考能力,进行了LongCoT冷启动,同时利用GSPO进行迭代通用强化学习和对齐强化学习(重点做指令遵循、格式规范、偏好对齐、安全伦理)。
在模型训练过程中,为了提高整体训练稳定性和速度,在ViT部分仅用数据并行,最大化吞吐;在LLM部分使用 DP + TP + PP 三层混合,同时支持 ZeRO-1/2/3 切换;在 128K 长序列阶段,额外引入 上下文并行(CP),将序列维度切分到多卡,显著降低单卡显存峰值。
还采用动态负载均衡机制,对每个样本提前计算显存开销,生成成本标签,将高成本样本均匀打散到多GPU,解决慢节点拖慢全局的问题。
整体模型指标如下:
聊完技术细节,开启实测!
先说一下整体感受,
Prompt:猫咪在第几秒的时候接到了球
回答正确,非常准确,2秒起跳,3秒接到球,很细致
Prompt:解读一下这个视频内容
回答正确,你会发现没有设置的时候,它会先自己选择,用/no_think模式还是/think模式
之前测试的快闪视频,也不错,也能回答对
Prompt:魔人啾啾第几个出现
回答正确,第11个角色
Prompt:请识别图中的文本内容,言简意赅。
回答正确
主要考察多模态大模型的内容理解能力、知识储备的能力,上传一个体检报告,看看能不能分析出来问题,以及相关的注意事项。
Prompt:请帮我解读一下报告内容。
回答正确
Prompt:找到奔跑的人,返回坐标值[x_min, y_min, x_max, y_max] /think
回答,偏了一点
整体效果还是不错的~
最后想说,Keye-VL1.5给我的感觉,像是短视频老司机,梗能听懂,细节也能抓住。
当然,它还不完美,空间逻辑、世界知识会掉链子,但8B体量能有这水平,已经相当能打了,期待后续开源更强更大的版本。
说白了,多模态大模型卷到现在,还是要看落地场景,拼技术也拼数据质量,
快手这波开源,细节,干货还是挺多的,Slow-Fast 视频编码也确实有点意思,
就像我之前说的,国内的大模型也是越来越走出自己的风采了~
PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-04
K8s部署Dify从0到1:最佳实践与避坑指南
2025-09-04
国内本地部署Gemini CLI,苹果电脑更丝滑,开发者彻底狂欢
2025-09-04
美团也开源了大模型,但我觉得他们的野心是通用生活Agent。
2025-09-04
重大福利!OpenAI免费开放ChatGPT Projects,3大功能太香了
2025-09-03
10分钟零代码,0元立即部署OpenAI开源模型 GPT-OSS
2025-09-03
coze开源能力及与官方闭源版比较
2025-09-03
工业级AI平台开源,识别率超过99%,包含图像采集、智能检测、数据标注、模型训练四大模块
2025-09-02
Coze教程 | 第2章:Coze开发环境搭建与配置
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-09-01
2025-08-16
2025-08-13
2025-08-11
2025-08-11
2025-08-06
2025-08-06
2025-08-06