微信扫码
添加专属顾问
 
                        我要投稿
腾讯音乐娱乐实验室开源了一个名为: MuseTalk的模型,这是一个实时高品质唇形同步模型。MuseTalk 可以与输入视频一起使用,例如由 MuseV 生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。
MuseTalk 是一个实时高品质音频驱动的唇形同步模型,是在 ft-mse-vae 的潜在空间中进行训练,该模型:
1. 能够根据输入的音频修改未知的面部动作,面部区域大小为 256 x 256。
2. 支持中文、英文和日文等多种语言的音频。
3. 在 NVIDIA Tesla V100 上支持超过 30fps 的实时推理。
4. 支持修改面部区域中心点,这对生成结果有 显著 影响。
5. 在 HDTF 数据集上训练的模型checkpoint。
关于MuseV 和 MuseTalk 结合作为虚拟人生成的完整解决方案。建议首先使用 MuseV 生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用 MuseTalk 生成一个音唇同步视频。
MuseTalk 是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。
注:尽管MuseTalk使用的架构与 Stable Diffusion 非常相似,但 MuseTalk 的独特之处在于它不是一个扩散模型。相反,MuseTalk 是通过在潜在空间中单步修复来操作。
对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU
当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬的懒人安装包简单快速并且可控:
WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388
ComfyUI插件安装步骤如下所示(模型和工作流已放置文末口令获取):
• 通过ComfyUI插件管理器搜索ComfyUI-MuseTalk,并点击安装插件。
• 下载模型TMElyralab/MuseTalk,以及sd-vae-ft-mse,whisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:
ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt• 另外官方说默认情况会自动下载s3fd.pth文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取。
RuntimeError: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
Cannot import MuseTalk module for custom nodes: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.• 除了 模型下载外,还需要手动安装如下依赖:
pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" • 导入工作流并重启ComfyUI软件。
• github:https://github.com/TMElyralab/MuseTalk
• ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk
• 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
 
            2025-08-21
2025-08-20
2025-09-07
2025-08-21
2025-08-19
2025-08-05
2025-09-16
2025-08-20
2025-10-02
2025-09-08
2025-10-31
2025-10-29
2025-10-29
2025-10-29
2025-10-28
2025-10-28
2025-10-28
2025-10-27