微信扫码
添加专属顾问
我要投稿
美团LongCat团队发布视频生成模型,突破5分钟长视频连贯生成技术,为构建世界模型迈出关键一步。核心内容: 1. LongCat-Video模型在文生、图生视频任务上达到开源最先进水平 2. 原生支持5分钟级长视频生成,解决跨帧一致性与物理运动合理性难题 3. 创新采用统一架构支持多任务,为自动驾驶、具身智能等场景奠定基础
要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。
基于这一关键目标,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。
作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。
统一模型架构:多任务一体化视频基座
作为基于 Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video 创新通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成 “文生 / 图生 / 视频续写” 完整任务闭环。
文生视频:可生成 720p、30fps 高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源 SOTA 级别。
图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。
视频续写:视频续写是LongCat Video的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。
长视频生成:原生支持5分钟级连贯输出
依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练,LongCat-Video 可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。
同时,模型结合块稀疏注意力(BSA)与条件 token 缓存机制,大幅降低长视频推理冗余 —— 即便处理 93 帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成 “时长与质量不可兼得” 的瓶颈。
高效推理:二阶段生成+稀疏注意力+模型蒸馏优化
针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video 通过 “二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏” 三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡:
二阶段粗到精生成(C2F):先生成 480p、15fps 低分辨率视频,再经 LoRA 精调模块超分至 720p、30fps,在降本提效的同时优化画面细节;
块稀疏注意力(BSA):将 3D 视觉 token 分块后,仅选取 top-r 关键块计算注意力,使计算量降至标准密集注意力的 10% 以下;支持稀疏注意力适配并行训练,进一步提升大模型训练与推理效率;
模型蒸馏优化:结合 Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从 50 步减至 16 步。
LongCat-Video 的模型评估围绕内部基准测试和公开基准测试展开,覆盖 Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:
通过全面的评估显示,LongCat-Video 通用性能优秀,综合能力跻身开源 SOTA:
136 亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域 SOTA 级别;
通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;
在 VBench 等公开基准测试中,LongCat-Video 在参评模型中整体表现优异。
开启你的长视频创作之旅
🌟GitHub:
https://github.com/meituan-longcat/LongCat-Video
🌟Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video
🌟Project Page:
https://meituan-longcat.github.io/LongCat-Video/
从 1 秒钟到 5 分钟,从灵感到成片
LongCat-Video,让长视频生成更简单!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-27
豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%
2025-10-27
当AI学会“听”:声音识别到声音理解,AI到底是怎么听懂的?
2025-10-27
AI出码率70%+的背后:高德团队如何实现AI研发效率的量化与优化
2025-10-26
上下文工程崛起:Manus天才少年Peak Ji揭示AI Agent核心突破
2025-10-26
如何让你的内容出现在AI生成的答案中?
2025-10-26
「基于智能体的企业级平台工程」建设完美指南
2025-10-26
DeepSeek-OCR:让 AI"一眼看懂" 文字的黑科技来了!
2025-10-26
基于LangGraph 构建临床问诊助手实践
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-09-08
2025-10-02
2025-09-17
2025-08-19
2025-09-29
2025-08-20
2025-10-27
2025-10-26
2025-10-25
2025-10-23
2025-10-23
2025-10-22
2025-10-22
2025-10-20