免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


可实时交互的AI生成世界,腾讯发布的AI框架Yan,会是元宇宙的破局者吗?

发布日期:2025-08-18 16:21:24 浏览次数: 1509
作者:至顶AI实验室

微信搜一搜,关注“至顶AI实验室”

推荐语

腾讯Yan框架突破AI视频生成边界,让玩家实时塑造虚拟世界,元宇宙交互迎来革命性升级。

核心内容:
1. Yan框架三大核心技术模块解析
2. 实时交互式视频生成的突破性创新
3. 对元宇宙发展的潜在影响与行业意义

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

2023年冬天,有一款真人互动影像游戏在Steam上发行,迅速火遍全球,你知道是谁吗?

在《完蛋!我被美女包围了!》里,玩家将扮演男主与六位美女展开恋爱攻略。所有的决策都由玩家进行选择,不同选择对应不同的剧情走向。爆火的原因之一是这种结局不确定的互动式玩法相当吸引人。

这个游戏里不同剧情发展都是提前录制好的。

与通过直接录制视频的手法不同,这次腾讯做的是直接用AI实时生成视频,画面根据玩家的按键交互进行发展。《完蛋!我被Yan包围了!》

2025年8月12日,腾讯Yan团队发布同名AI框架Yan,实现实时交互式视频生成。这个框架包含三大模块:Yan-Sim达到1080P/60FPS实时渲染,Yan-Gen支持文字和图像驱动的世界生成,Yan-Edit允许游戏中实时编辑场景结构和风格。技术创新解决了语义漂移、实时性能和多模态融合等关键难题。论文发表在arXiv上。
过去的AI视频生成技术就像播放预先录制好的电影片段,你只能观看,无法干预剧情发展。但Yan系统完全不同,它更像一个超级智能的游戏引擎,能够根据你的每一个操作指令,瞬间调整画面内容。当你按下键盘上的前进键时,画面中的角色真的会向前移动;当你输入"把这个蓝色的平台变成红色"时,AI会立即执行你的指令,并保持所有物理规律的真实感。
这项研究的核心创新在于将交互式视频生成分解为三个相互配合的模块。第一个模块叫做Yan-Sim,专门负责AAA级别的实时模拟,确保每秒60帧的流畅体验。第二个模块Yan-Gen处理多模态生成,能够理解文字描述和图像输入,创造出符合要求的虚拟场景。第三个模块Yan-Edit则负责多粒度编辑,让用户可以随时修改场景中的任何元素。
突破传统限制的AAA级实时模拟
在传统的AI视频生成中,系统需要花费大量时间来"思考"下一帧画面应该是什么样子,就像一个画家需要仔细观察、构思、然后一笔一笔地绘制。但Yan-Sim采用了一种全新的方法,它预先学会了如何快速"素描",能够在瞬间完成复杂场景的绘制。
研究团队的核心突破在于设计了一个高度压缩的3D变分自编码器(3D-VAE)。将压缩率从1×8×8增加到了2×32×32。
为了实现实时响应,研究团队还开发了移位窗口去噪推理技术。这个技术的工作原理就像一个高效的清洁工人,不是等所有房间都脏了再一次性打扫,而是持续地、有序地清理每个房间。在视频生成过程中,系统会同时处理多个时间点的画面,早期的画面相对"干净"(噪声较少),后期的画面比较"脏"(噪声较多),通过这种方式显著减少了每帧画面的平均处理时间。
研究团队还采用了KV缓存技术,这就像给AI装上了短期记忆系统。当你在虚拟世界中移动时,AI会记住刚才看到的场景特征,避免重复计算相同的内容。这种技术让整个系统的运行效率提升了数倍。
为了满足实时性要求,研究团队还采用了结构剪枝FP8量化等优化策略。结构剪枝就像给一个复杂的机械装置去掉不必要的零件,让它更轻便但功能不减。FP8量化则是将原本需要高精度计算的部分转换为更高效的计算方式,在几乎不影响质量的前提下,将推理速度提升了1.5到2倍。
通过这些技术的结合运用,Yan-Sim能够在单个NVIDIA RTX 4060显卡上实现1080P分辨率、60FPS的实时交互式视频生成。测试结果显示,系统的延迟控制在0.07秒以内,这意味着当你按下操作键后,画面几乎能够瞬间响应你的指令。
多模态智能生成的创新架构
Yan-Gen模块的设计理念源于一个深刻的洞察:要让AI生成的虚拟世界真正可信,就必须让它同时理解文字描述、图像信息和用户的操作意图。
研究团队面临的最大挑战是"反漂移"问题。在自回归式的视频生成中,AI需要基于前面生成的画面来创造后续内容。如果前面出现了微小的错误,这些错误会像滚雪球一样越累越大,最终导致生成的内容完全偏离原始意图。
为了解决这个问题,研究团队创造性地提出了分层字幕系统。这个系统的工作方式类似于电影制作中的分镜头脚本。全局字幕就像总导演的整体构想,描述了虚拟世界的基本设定、视觉风格和环境条件,这些信息在整个生成过程中保持不变,为AI提供稳定的参考框架。局部字幕则像现场导演的具体指导,描述当前场景中正在发生的具体事件和细节变化。
全局字幕的生成过程非常有趣。研究团队会让AI观看一段展现整个虚拟世界的视频,然后要求它总结出三个核心要素:世界的整体布局(包括主要区域和连接方式)、视觉主题(色彩搭配、材质风格、建筑特色)、基础环境条件(光照效果、天气状况)。这就像让一个旅行作家在游览一个新城市后,写出一份能够帮助其他人快速了解这个城市特色的简介。
局部字幕则关注更加细致的内容:当前视野范围内的具体场景、正在发生交互的物体、关键事件(比如角色受伤或任务完成)。这些信息帮助AI精确地渲染每一个瞬间的细节变化。
在技术实现上,Yan-Gen基于预训练的Wan模型进行开发,通过低秩适应(LoRA)微调技术来适应交互式视频数据的特点。研究团队巧妙地设计了一个多模态条件注入机制,文本信息通过umt5-xxl编码器处理,图像信息通过ViT-H-14视觉编码器处理,而动作信号则通过专门的多层感知机处理。这三种不同类型的信息通过解耦的交叉注意力层分别注入到生成模型中,确保AI能够同时理解和响应多种不同的输入信号。
为了实现真正的实时交互,研究团队还开发了一个创新的后训练流程。首先,他们使用自回归初始化技术,让AI学会预测视频序列中的关键时间点。然后通过因果注意力机制的改造,确保每一帧的生成只依赖于之前的历史信息,而不会"偷看"未来的内容。最后,他们使用分布匹配蒸馏技术,将原本需要多步计算的复杂模型压缩成只需要4步就能完成的高效模型。
这种设计让Yan-Gen能够在单个NVIDIA H20显卡上实现12-17FPS的实时生成速度,如果使用4块显卡并行计算,速度可以提升到30FPS。更重要的是,整个系统支持无限长度的内容生成,用户可以在虚拟世界中无限探索,而不会受到预设内容长度的限制。
革命性的多粒度实时编辑能力
Yan-Edit模块代表了交互式视频编辑领域的一个重大突破。以往的视频编辑系统就像传统的胶片剪辑,你必须停下播放,仔细编辑某个片段,然后重新播放才能看到效果。但Yan-Edit可以在视频播放的过程中随时改变任何你想要修改的内容。
这个模块的核心创新在于将交互式机制模拟与视觉渲染彻底分离。可以把这种设计想象成一个双层结构的娱乐设施:底层是一个精密的机械装置,负责控制所有的运动轨迹和物理规律;上层是一个灵活的装饰系统,负责所有的视觉呈现。当你想要改变某个物体的颜色时,只需要调整上层的装饰系统,底层的机械运作完全不受影响,所以这个物体的运动方式和物理特性保持完全一致。
研究团队首先使用深度估计技术为每一帧视频提取深度图信息。深度图就像是物体世界的"骨架透视图",它记录了场景中每个物体的3D结构和空间位置关系,但完全不包含颜色、纹理等视觉信息。通过这种方式,AI可以学会一种更加通用的交互机制理解能力,不会被特定的视觉外观所干扰。
交互式机制模拟器基于Yan-Sim技术构建,专门负责学习基于深度图的结构相关交互规律。当用户输入"在场景中添加一个圆柱形风扇"这样的结构指令时,这个模拟器会在深度图层面添加相应的3D结构,并确保新添加的物体遵循正确的物理规律。这就像一个经验丰富的建筑师,即使看不到建筑物的外观装饰,也能准确判断在哪里可以添加新的结构元素,以及这些元素应该如何与现有结构协调运作。
视觉渲染器则基于Yan-Gen技术开发,专门负责将深度图转换为最终的视觉输出。用户可以通过样式提示词来控制渲染效果,比如"竹子和水彩画风格,柔和的阳光"或"紫色玻璃和银色栏杆,青色光线,抽象几何着色器,寒冷的黄昏"。渲染器会根据这些描述,为深度图中的每个结构元素赋予相应的视觉外观。
整个编辑过程的实时性得益于两个关键技术的结合。首先是ControlNet技术的应用,它就像一个智能的翻译器,能够将深度图信息准确地传递给视觉生成模型。其次是KV缓存机制的延续使用,确保编辑过程中的计算效率。
研究团队设计了两种不同粒度的编辑能力。结构编辑允许用户动态添加、移除或替换场景中的交互元素。比如在一个竞速游戏场景中,用户可以实时添加跳板、移除障碍物、或者将旋转平台替换为木门。这些结构变化会立即反映在深度图中,并且新添加的元素会具备正确的物理特性和交互能力。
样式编辑则关注视觉外观的实时变化。用户可以在游戏进行过程中切换整个场景的视觉风格,从现实主义的渲染切换到卡通风格,或者从白天场景变为夜晚场景。更精细的样式编辑还支持对特定物体的颜色、材质、光照效果进行独立调整。
在训练过程中,研究团队采用了一个巧妙的分阶段策略。他们首先训练交互式机制模拟器,使用结构提示词来学习3D结构层面的交互规律。然后训练视觉渲染器,结合开源的ControlNet权重和自研的蒸馏技术,实现对深度图的高质量样式渲染。整个训练过程使用了大量的随机生成深度视频和样式提示词,确保模型具备良好的泛化能力。
实际应用中,Yan-Edit展现出了令人惊叹的实用性。在一个测试场景中,用户开始时在一个绿色草地上进行游戏,通过样式编辑功能,可以瞬间将场景切换为水彩画冲洗风格。随后又可以切换为抽象几何着色器风格,整个过程完全实时,不会中断游戏体验。
数据收集与训练的工程化突破
要训练一个能够理解复杂交互规律的AI系统,最大的挑战不是算法设计,而是如何获得足够高质量的训练数据。传统的数据收集方法就像手工制作精密零件,费时费力且难以保证一致性。Yan团队开发了一套全自动化的数据收集流水线,就像建造了一座高度自动化的工厂,能够持续不断地生产高质量的交互式视频数据。
研究团队选择了腾讯自研的《元梦之星》游戏作为数据收集环境。现代3D游戏引擎具备复杂的物理模拟能力和丰富的交互机制,能够提供真实世界中难以获得的高精度动作-视觉对应关系。《元梦之星》包含了超过90种不同风格的场景,从草原到城堡,从雨林到峡谷,为AI系统提供了极其丰富的学习素材。
数据收集的核心是一个智能探索代理系统。这个代理就像一个永不疲倦的游戏测试员,能够自动在各种场景中进行探索和交互。研究团队巧妙地结合了随机探索和强化学习两种策略:随机模型负责增加探索的广度,确保代理能够尝试各种不同的动作组合;强化学习模型负责增加探索的深度,让代理能够到达游戏场景的各个角落。这种双重策略确保了收集到的数据既有多样性又有代表性。
为了保证数据的高精度,研究团队开发了基于时间戳的精确对齐技术。在游戏引擎运行过程中,系统会在代理执行动作的确切时刻捕获屏幕截图,同时记录对应的动作信号。这种精确对齐确保了每个动作都能与相应的视觉变化准确对应,为AI学习正确的因果关系提供了可靠基础。
数据质量控制是整个流水线的关键环节。研究团队设计了三层过滤系统来确保数据质量。视觉过滤器负责检测渲染失败或被遮挡的图像,通过计算图像的颜色方差来识别异常帧。如果一段视频的平均颜色方差低于设定阈值,说明图像可能存在渲染问题或大面积遮挡,这段数据会被自动丢弃。
异常过滤器专门处理视频卡顿问题。当游戏引擎性能不足时,会产生大量重复帧,导致视频播放时出现明显的卡顿现象。过滤器会检测视频段的帧数,如果超过正常范围,就判定为异常数据并予以排除。规则过滤器则专注于游戏机制的一致性,识别那些不符合游戏规则的数据片段,比如在"准备阶段"收集的数据,此时游戏机制尚未激活,交互行为可能不一致。
数据平衡处理是训练成功的另一个关键因素。原始收集的数据往往存在偏差,某些场景或动作类型可能被过度采样,而另一些可能采样不足。研究团队开发了一个智能平衡采样系统,它会分析数据在各个维度上的分布,包括坐标位置、角色状态、碰撞情况等,然后进行平衡采样,确保最终的训练数据集在各个维度上都具有相对均匀的分布。
为了支持高分辨率视频生成,整个数据收集系统被配置为1920×1080分辨率运行,使用NVIDIA RTX 4060显卡进行实时渲染。为了实现30FPS的高帧率数据收集,研究团队采用了动作插值技术:代理每秒发出10次动作指令,同时系统每秒捕获30帧画面,通过时间戳匹配技术,将动作信号分配给相应的视频帧。
团队最终收集到超过4亿帧的高质量交互式视频数据,涵盖90多种不同风格的场景。这个数据集不仅在规模上超越了现有的交互式视频数据集,在质量和多样性方面也达到了新的高度。数据集中包含了8种不同的动作类型,不仅有基础的移动操作,还包括跳跃、俯冲、视角旋转等复杂动作,为AI系统学习丰富的交互机制提供了充分的素材。
至顶AI实验室洞见
腾讯团队用来采集数据的游戏《元梦之星》,也算是元宇宙概念游戏的先行者。元宇宙的概念炒了很多年了,似乎一直缺少关键技术突破,Yan或者同类技术可能成为破局者。
Yan的出现可能还会催生全新的创意产业形态。游戏开发者可以通过自然语言快速原型化新的游戏概念;教育工作者可以创造出高度个性化的交互式学习环境;内容创作者可以实时生成独特的视频内容。
目前的系统仍然需要高性能的GPU支持。研究团队也承认,在长时间生成过程中保持视觉一致性还需要持续改进。
但随着技术不断进步,未来也许每个人都能够轻松地创造和体验属于自己的AI生成虚拟世界。
论文地址:https://arxiv.org/abs/2508.08601v1
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A
Q1:Yan框架是什么?
A:Yan是一个基础交互视频生成框架,由腾讯团队开发,整合了模拟、生成和编辑全流程。它包括三个核心模块:AAA级模拟模块实现实时1080P/60FPS渲染,多模态生成模块支持文本或图像驱动的视频创作,以及多粒度编辑模块允许在交互中动态修改内容。Yan通过解耦机制模拟和视觉渲染,推动AI驱动的交互创作范式,适用于游戏和媒体应用。
Q2:Yan如何实现1080P/60FPS视频模拟?
A:Yan的AAA级模拟模块(Yan-Sim)使用高度压缩的3D-VAE和基于KV缓存的移位窗口去噪推理过程,减少延迟并提升效率。它通过增加VAE压缩率和采用因果注意力机制,支持帧级交互,实现1080P分辨率和60FPS实时性能。视觉质量高,能处理多样场景和复杂物理机制。优化策略包括剪枝、量化和CUDA图加速。
Q3:Yan的编辑功能支持哪些操作?
A:Yan-Edit模块支持文本驱动的多粒度编辑,包括结构编辑(如添加互动对象)和风格编辑(如改变颜色和纹理)。它解耦交互机制模拟和视觉渲染,使用深度图保留物理结构,并通过文本提示实时修改内容。用户可在交互过程中动态输入新提示,比如结构替换和风格切换,确保机制准确性和渲染一致性。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询