我要投稿

只需6G显存，就能本地跑的AI视频算法，开源了！

发布日期：2025-04-23 18:32:03 浏览次数： 2240

作者：JackCui

微信搜一搜，关注“JackCui”

Stable Diffusion 都用过吧？

大名鼎鼎的 ControlNet，可以控制图片生成的插件，应该也不陌生？

而它的作者 lllyasviel，现在又开源了一个 AI 视频生成算法 FramePack。

可以根据图片，生成对应的视频，这是动起来的水母：

上传一张图片，然后设定提示词：

The girl dances gracefully, with clear movements, full of charm.

就能得到这样的视频：

我们再一起看下 FramePack 生成 AI 视频的其它效果：

5秒长的古画视频

2分钟长的赛博朋克2077宇宙

1分钟长的花样舞蹈

猜猜要生成上面的视频需要使用多少算力？

过去，答案往往是需要多张A100一起工作。

而现在，使用新发布的 FramePack，只需要一个带有 6GB GPU 内存的 RTX 3060 笔记本，就可以在本地流畅地生成。

FramePack一经发布，在外网上也是收获了一波好评。

接下来，让我们一起了解一下 FramePack 究竟是如何做到的。

项目地址：

https://lllyasviel.github.io/frame_pack_gitpage/

代码地址：

https://github.com/lllyasviel/FramePack

FramePack的原理及核心优势

FramePack 是由斯坦福大学的 Lvmin Zhang 和 Maneesh Agrawala 联合发布的一种 next-frame（next-frame-section）预测神经网络结构，可以逐步生成视频。

顺便提一嘴，Lvmin Zhang 就是大名鼎鼎的ControlNet 的作者张吕敏。

FramePack 将输入上下文压缩为恒定长度，并且根据帧的重要性实现不同的压缩模式。

这样的操作显著降低了对 GPU 显存的要求，从而实现了与图片扩散模型相似的计算消耗。

为了缓解“漂移”现象，FramePack 提出了三种反漂移采样方法。

btw 漂移是指在下一帧预测模型中出现的视觉质量会随着视频长度的增加而下降的问题。

实验发现第三种采样方法可以将用户的输入视为高质量的第一帧，并不断优化生成以接近用户帧，从而可以获得整体高质量的视频。

这就意味着在不显著牺牲品质的情况下，FramePack 可以生成更长时间的视频。

并且用户能够即时查看每一帧生成后的画面，方便进行预览和调整。

所以如果你要生成一段120s 长的视频，在看到画面觉得不满意就可以停止重试，而不需要等到整个视频完成后，节约了用户时间。

接着，我们一起看看 FramePack 最突出的性能优势。

极小的硬件需求：可以仅仅使用笔记本电脑 6GB GPU 内存，驱动 13B 模型以 30 FPS 生成上千帧视频。目前已经测试的显卡系列包括 Nvidia GPU 中的 RTX 30XX、40XX、50XX 系列，支持 fp16 和 bf16。可在Windows及Linux操作系统上使用。
微调高速：在单个 8xA100/H100 节点上以 64 的批量大小微调 100B 视频模型，用于个人/实验室实验。
生成速度快：个人版 RTX 4090 的生成速度为2.5秒/帧，使用 teacache 优化后可以达到1.5秒/帧。

FramePack 的安装和使用非常便捷。

快速安装与使用FramePack

Windows 系统用户直接点击下面的链接，会自动开始下载。

https://github.com/lllyasviel/FramePack/releases

下载后，对文件进行解压缩。

先运行 update.bat 进行更新，然后使用 run.bat 运行。

对于 Linux 系统用户，建议使用独立的 Python 3.10。

安装使用的命令如下：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

pip install -r requirements.txt

然后使用下面的命令启动GUI：

python demo_gradio.py

安装好后就可以亲自上手试试。

GUI 左侧用来上传图像和输入 prompt。右侧是生成的视频。你也能在看到下一部分的预览以及各个部分的进度条

值得注意的是因为这是一个 next-frame-section 预测模型，所以视频的生成时间会越来越长。

并且初始进度可能比后期扩散慢，因为设备可能需要一些预热。

写在最后

FramePack 的出现非常重要，不仅是对技术本身的突破，而是在大幅度降低本地 AI 视频创作硬件需求的情况下，让 AI 视频生成技术变得更加更加容易上手玩，让更多人可以享受到 AI 视频创作的乐趣。

·················END·················

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-15

OpenEvals下一代AI模型评估标准

2025-12-15

AutoGLM：推倒那面墙

2025-12-15

狂揽162K Star！n8n 2.0强势来袭，这次改动有点狠。

2025-12-14

ollama v0.13.3 最新发布：新增模型与功能优化详细解读

2025-12-14

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

2025-12-14

AutoGLM开源：手机AI Agent的“安卓时刻”来了

2025-12-14

给你家 AI Agent 装个「长期记忆」，这个开源库一行代码搞定

2025-12-12

深度解析 Devstral 2：Mistral 如何重新定义开源代码智能体（Agentic Coding）

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

DeepSeek-V3.2-Exp开源，附论文细节解读！

2025-09-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

大家都在问

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB