我要投稿

快手开源Keye-VL1.5：8B多模态模型细节揭秘，短视频理解很强！

发布日期：2025-09-04 21:02:52 浏览次数： 2201

作者：刘聪NLP

微信搜一搜，关注“刘聪NLP”

昨天的阅兵都看了吗，太酷了，我真是看的热泪盈眶。让我看到了一个民族从苦难走向了辉煌的伟大复兴之路。

说回正题，快手前两天开源了多模态大模型 Keye-VL1.5，模型大小8B，混合推理模型，在短视频理解上效果尤为突出。

Github: https://github.com/Kwai-Keye/Keye
HF: https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

咱们还是老规矩，先看看模型的相关细节，再针对模型特点进行一些实测。

模型结构还是经典的三件套，视觉编码器（ViT）、MLP映射层，大模型解码器（LLM），这里视觉编码器采用SigLIP-400M-384-14初始化，大模型采用Qwen3-8B初始化。

PS：Qwen3含金量依旧再提高，哈哈哈~

在视觉编码器部分，采用2D-RoPE增强高分图像理解，并且采用了500B Tokens进行了预训练操作，同时图像和视频处理阶段，采用差异化的编码策略。

对于图像，每张图像总编码数可达到20480个Token，足以覆盖数千万像素以上的图像，保证每张图像的细节都可以被精准捕获。

对于视频，创新地提出了Slow-Fast 视频编码，这个部分也是Keye-VL1.5可以在短视频理解中效果很好地关键。Slow-Fast 视频编码有两个通路，

慢速路径：用于捕捉快速变化帧的视觉信息，帧数较少但分辨率更高。
快速路径：用于捕捉相对静态帧的细微视觉信号，帧数较多但分辨率较低。

通俗点来讲，就是把视频里关键动作用高清慢镜头细看，静止背景用流畅快镜头扫过，既省算力又不丢细节。

通过图像块相似度的函数来判断快慢，第一帧始终定义为慢帧，对于后续帧，若与最新慢帧的图像块相似度超过 95%，则标记为快帧，否则标记为新的慢帧。同时为了平衡帧数与总 Token 预算，将快帧的 Token 预算设为慢帧的 30%

Keye-VL1.5预训练阶段，涉及4个部分，

Stage0：ViT增量预训练，利用SigLIP-400M进行参数初始化，采用SigLIP对比损失继续训练 ViT，以支持原生动态分辨率 + 2D RoPE；

Stage1：跨模态对齐，冻结 ViT & LLM，仅训练 MLP 投影层，对齐视觉-语言；

Stage2：多任务预训练，全参数端到端训练，涉及图像描述、OCR、Grounding、VQA文等任务；

Stage3：退火训练，通过高质量样本模型训练，同时长上下文扩展到128K，引入长视频、长文本和高精度图像数据。

这里的视频数据也是重点，除了开源数据之外，还是用了大量高质量短视频，这里对视频的处理也有说法（看paper吧，这里就不多说了），这也是为啥Keye-VL1.5擅长短视频理解的原因。

所以大模型训练的壁垒，还是高质量的训练数据。

Post-Training也是4个阶段，先是用750万多模态问答数据进行SFT，再用42.6万偏好数据进行MPO，同时为了增强长思考能力，进行了LongCoT冷启动，同时利用GSPO进行迭代通用强化学习和对齐强化学习（重点做指令遵循、格式规范、偏好对齐、安全伦理）。

在模型训练过程中，为了提高整体训练稳定性和速度，在ViT部分仅用数据并行，最大化吞吐；在LLM部分使用 DP + TP + PP 三层混合，同时支持 ZeRO-1/2/3 切换；在 128K 长序列阶段，额外引入上下文并行（CP），将序列维度切分到多卡，显著降低单卡显存峰值。

还采用动态负载均衡机制，对每个样本提前计算显存开销，生成成本标签，将高成本样本均匀打散到多GPU，解决慢节点拖慢全局的问题。

整体模型指标如下：

聊完技术细节，开启实测！

先说一下整体感受，

带/think可以深度思考，带/no_think直接回答，什么都不带是auto模式，模型会自己判断
Keye-VL1.5对于短视频的理解很不错，一些玩梗的视频可以理解
OCR和图片理解也不错
Grounding做了专门的优化，可以精准定位
因为模型只有8B大小，对于世界知识、空间逻辑还有空间变换还是存在一定的欠缺，例子可以看，之前的横测六大顶流开源多模态大模型 | 附13大场景实例

视频理解

Prompt：猫咪在第几秒的时候接到了球

回答正确，非常准确，2秒起跳，3秒接到球，很细致

Prompt：解读一下这个视频内容

回答正确，你会发现没有设置的时候，它会先自己选择，用/no_think模式还是/think模式

之前测试的快闪视频，也不错，也能回答对

Prompt：魔人啾啾第几个出现

回答正确，第11个角色

OCR

Prompt：请识别图中的文本内容，言简意赅。

图片来自网络

回答正确

报告分析

主要考察多模态大模型的内容理解能力、知识储备的能力，上传一个体检报告，看看能不能分析出来问题，以及相关的注意事项。

Prompt：请帮我解读一下报告内容。

回答正确

Grounding

Prompt：找到奔跑的人，返回坐标值[x_min, y_min, x_max, y_max] /think

回答，偏了一点

整体效果还是不错的~

最后想说，Keye-VL1.5给我的感觉，像是短视频老司机，梗能听懂，细节也能抓住。

当然，它还不完美，空间逻辑、世界知识会掉链子，但8B体量能有这水平，已经相当能打了，期待后续开源更强更大的版本。

说白了，多模态大模型卷到现在，还是要看落地场景，拼技术也拼数据质量，

快手这波开源，细节，干货还是挺多的，Slow-Fast 视频编码也确实有点意思，

就像我之前说的，国内的大模型也是越来越走出自己的风采了~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-05

开源算法能在 2025 年击败 GPT-5 吗？DeepSeek-V3.2 / Speciale 交出了一份答卷

2025-12-05

开源了首个用于诉讼的智能体框架 SuitAgent

2025-12-05

腾讯混元OCR大模型，本地部署，实测

2025-12-04

刚刚，法国Mistral 3系列模型发布，全部开源、全部多模态、全部能落地，对标中国模型

2025-12-04

Transformers来到了v5时代：从工具包到真理之源，AI时代的操作系统内核的极简进化论

2025-12-04

Mistral 3发布，14B多模态小模型表现优异

2025-12-04

ollama v0.13.1 发布：全新 Ministral-3 与 Mistral-Large-3 模型，增强工具调用与GPU

2025-12-03

从硅谷杀出来一个彻底开源的AI记忆系统，是真的优雅！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

Claude不让用，有哪些国产模型能迎头赶上？

2025-09-08

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

大家都在问

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部