微信扫码
添加专属顾问
我要投稿
人工智能视频生成模型的数量不断增长,本周推出了一种新的模型Pyramid Flow,它可以提供长达 10 秒的高质量视频片段,速度快,而且全部开源。大部分镜头和用户感受都是 10 - 30s之间。加大投入干到稳定 30s,超越 Sora,做到标杆。
Pyramid Flow 由北京大学、北京邮电大学和快手科技的研究人员合作开发,(后者是广受好评的专有 Kling AI 视频生成器的创造者 )。它利用一种新技术,其中单个 AI 模型分阶段生成视频,其中大多数是低分辨率的,仅在生成过程结束时保存全分辨率版本。
代码已经开源:https://huggingface.co/rain1011/pyramid-flow-sd3,但需要用户在自己的机器上下载并运行模型代码进行推理。
官方 case
主要优点有两个:
Pyramidal Flow Matching
在推理过程中,每个阶段的输出都会通过校正高斯噪声进行再噪声化,这有助于保持连续金字塔阶段之间概率路径的连续性。此外,以自回归的方式制定视频生成,用前面生成的历史为条件迭代地预测下一个视频条件。鉴于全分辨率历史中存在高冗余度,作者使用逐步压缩的低分辨率历史作为条件来策划时间金字塔序列,从而进一步减少标记数并提高训练效率。空间金字塔和时间金字塔的协作为视频生成带来了显著的训练效率。与常用的全序列扩散相比,团队的方法显著减少了训练过程中的视频 token 数量(例如,≤15,360 个 token 对比 10 秒 241 帧视频的 119,040 个 token),从而减少了所需的计算资源和训练时间。 确实牛了,这样推理速度快,难怪只要十几秒就能干一个短视频,用户体验也增加了。并发和压缩思想用得好。
空间复杂性
为了减轻空间内早期步骤中的冗余计算,团队在数据和压缩的低分辨率噪声之间插入流。让 ⊕ 表示不同分辨率的潜在值之间的插值,并设 K 分辨率,每个分辨率都将前一个分辨率减半,那么 flow 可以表示为:其中 Down 表示下采样,也就是前一个分辨率。
通过上面公式,可以得到如下图每个阶段从像素化和噪声的起点到无像素化和更清晰的结果。(从上往下,上采样的输入来自下采样 K+1)
时间复杂性
团队观察到全分辨率历史条件中存在高度冗余。例如,视频中较早的帧往往提供高级语义条件,与外观细节关系不大。这促使团队使用压缩的低分辨率历史进行自回归视频生成。
在每个金字塔阶段,生成都以压缩的低分辨率历史为条件,以提高自回归模型的训练效率,如每一行行所示。另外也设计了一种兼容的位置编码方案,该方案在空间金字塔中进行推理过程中进行内插值,以允许条件的空间对齐。
Pyramidal Flow Matching 背后的研究团队也致力于开放性和可访问性。所有代码和模型权重都将通过其官方项目页面免费向公众开放,确保世界各地的研究人员和开发人员都能利用和借鉴这项工作。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
DeepSeek Prover-V2,这才是探索AGI 的正确姿势!
2025-04-30
速报!DeepSeek-Prover-V2-671B 悄然上线,或为 R2 铺路?
2025-04-30
“Qwen3之后,我才真正敢投AI应用”
2025-04-30
真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
2025-04-30
n8n:免费+开源的自动化神器,比dify更简单,比Make更强大!
2025-04-30
宝藏发现:Sim Studio,一款让AI工作流搭建变简单的开源利器
2025-04-29
我们有必要使用 Qwen3 吗?
2025-04-29
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-30
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-21
2025-04-19
2025-04-17