我要投稿

阿里突然开源Live Avatar！虚拟人进入“无限续帧时代”

发布日期：2026-01-05 22:50:50 浏览次数： 1954

作者：程序那些事儿

微信搜一搜，关注“程序那些事儿”

过去一年，AI 视频生成的战场上，大家都在追逐“更逼真、更像真人”的短视频效果。

但阿里联合多所高校开源的 Live Avatar，却悄悄把方向盘打向了另一个维度：

不是做更好看的视频，而是做“能一直播下去”的虚拟人。

这件事的意义，比你想象得大得多。

为什么 Live Avatar 是一个时代分水岭？

我们先说一句可能会被引用很久的话：

Live Avatar 不是一个模型，它是“虚拟人基础设施”的雏形。

为什么这么说？

因为它第一次在一个系统里同时解决了虚拟人领域最难的三件事：

实时（20 FPS）
高保真（14B 扩散模型）
无限时长（10000 秒以上不崩）

这三件事，过去从来没有一个系统能同时做到。

你可以把它理解为：

Sora 的画质 + VASA-1 的实时性 + EMO 的口型同步 + 无限续帧能力

而且是开源的。

Live Avatar 到底厉害在哪里？

下面我用最通俗但最专业的方式，把它的技术亮点讲清楚。

亮点一：20 FPS 实时生成，扩散模型第一次“跑得起来”了

传统扩散模型的问题你肯定知道：

慢
更慢
再加点采样就卡死

但 Live Avatar 用了两招，把 14B 模型跑成了“实时”：

① 分布匹配蒸馏（Distribution Matching Distillation）

把原本几十步的扩散采样压缩到 4 步。

这不是简单粗暴的“减少步数”，而是：

让 4 步的分布逼近 50 步的效果。

② 时间步强制流水线并行（Timestep-forcing Pipeline Parallelism）

把扩散的每一步拆开，丢到不同 GPU 上并行跑。

结果就是：

5 张 H800 → 20 FPS → 真·实时虚拟人。

这意味着什么？

意味着虚拟人可以“跟你对话”，不是“等你说完再生成”。

亮点二：无限时长生成，虚拟人不再“越播越崩”

虚拟人行业最痛的痛点是什么？

不是画质，而是：

播 5 分钟还行，播 50 分钟就开始变脸。

Live Avatar 用了三项黑科技解决这个问题：

① Rolling RoPE：防止身份漂移

RoPE（旋转位置编码）本来是给语言模型用的。
Live Avatar 把它“滚动更新”，让模型永远知道“现在是第几帧”。

效果：

脸不会越播越不像本人。

② Adaptive Attention Sink：防止分布漂移

长时间生成会让模型“忘记自己长什么样”。
AAS 会动态替换参考帧，让模型始终保持在正确的分布上。

效果：

颜色不崩、光照不乱、风格不漂。

③ History Corrupt：防止误差累积

模型会在 KV Cache 里注入噪声，让它学会“容错”。

效果：

动作不会越播越僵，表情不会越播越怪。

这三项技术组合在一起，就是：

虚拟人第一次可以“无限续帧”而不崩坏。

亮点三：与 Qwen3-Omni 结合，虚拟人第一次有了“灵魂”

Live Avatar 本身负责“身体”。 Qwen3-Omni 负责“思考”。

两者结合意味着：

虚拟人能听懂你说话
能实时回答
能实时做表情
能实时生成视频

这不是“视频生成”。这是 实时交互式虚拟人。

你可以把它理解为：

一个永不疲倦、永不下播、永不情绪失控的 AI 主播。

Live Avatar 的真正意义：虚拟人从“内容”变成“系统

过去的虚拟人是什么？

一段视频
一个短片
一个 demo

Live Avatar 把虚拟人变成了：

一个实时系统
一个可持续运行的引擎
一个可以接入业务的基础设施

这意味着什么？

意味着虚拟人第一次可以：

24 小时直播
实时客服
实时讲课
实时导购
实时主持
实时陪伴

而且成本比真人低几个数量级。

为什么说 Live Avatar 是“下一代虚拟主播”的起点？

因为它解决了虚拟主播的三大致命问题：

痛点	传统虚拟人	Live Avatar
实时性	延迟高、卡顿	20 FPS 实时
稳定性	播久必崩	10000 秒不变脸
成本	需要大量人工	全自动、可接入 AI 代理

未来的虚拟主播会是什么样？

一个 AI 代理 + 一个 Live Avatar 引擎 + 一个直播间。

主播不需要睡觉，不需要吃饭，不需要休息。

直播间永远在线，永远带货，永远赚钱。

这不是科幻，这是 2026 年以后的现实。

Live Avatar 的底层逻辑：不是“生成视频”，而是“生成时间”

这是我认为最值得写进教科书的一句话：

Live Avatar 的核心不是生成视频，而是生成“连续的时间”。

视频只是时间的载体。虚拟人真正的难点不是画质，而是：

时间的连续性
身份的一致性
行为的稳定性

Live Avatar 解决的正是“时间”这个维度的问题。

这就是为什么它是基础设施，而不是模型。

未来三年，Live Avatar 会改变什么？

我给你三个判断，未来会被验证：

① 直播行业会出现“AI 24 小时主播”

真人主播会变成“品牌 IP”， AI 主播负责“全天候带货”。

② 每个 App 都会有自己的“虚拟客服”

不再是冷冰冰的文本窗口，而是一个能看见、能说话、能互动的虚拟人。

③ 虚拟人将成为“AI 代理的身体”

AI 代理负责思考， Live Avatar 负责呈现。

这会是下一代交互方式。

最后

iPhone 不是第一台智能手机，但它定义了智能手机的未来。

Live Avatar 也不是第一个虚拟人模型，但它定义了虚拟人的未来：

实时、流式、无限时长、可交互、可接入业务。

这是 AI 的时代，一切改变都来的太快。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-13

“思考”更深，生成更准｜Seedream 5.0 Lite 发布

2026-02-12

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

Seedance 2.0 正式发布

2026-02-11

Qwen-Image-2.0发布：中文生图彻底不拧巴了

2026-02-10

对话离哲：企业AI告别「对话玩具」，多模态记忆是分水岭

2026-02-10

Qwen-Image-2.0: 字字清晰，张张细腻

2026-02-03

多模态文档智能解析最新开源进展：GLM-OCR方法概述

2026-02-02

月之暗面Kimi正式发布官方编程工具：Kimi Code

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

面向业务落地的AI产品评测体系设计与平台实现

2025-12-17

大家都在问

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean