免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


解锁任意模态模型训练,字节跳动Seed开源VeOmni框架

发布日期:2025-08-14 17:11:34 浏览次数: 1517
作者:字节跳动Seed

微信搜一搜,关注“字节跳动Seed”

推荐语

字节跳动Seed团队开源VeOmni框架,让全模态大模型训练像搭积木一样简单,工程耗时压缩90%以上!

核心内容:
1. 全模态大模型训练的工程挑战与现有框架局限
2. VeOmni框架的创新设计:以模型为中心的分布式训练方案
3. 实际效果:300亿参数模型训练吞吐量达2800 tokens/sec/GPU

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。
为推动全模态大模型的研究与应用,字节跳动 Seed 团队发布并开源了全模态 PyTorch 原生训练框架——VeOmni
VeOmni 采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天
此前,使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩 90% 以上。
实验结果表明,基于 VeOmni 框架,一个 300 亿参数的全模态 MoE 模型(支持文本、语音、图片、视频的理解和生成), 在 128 张卡上训练吞吐量可超过 2800 tokens/sec/GPU,并能轻松扩展至 160K 超长上下文序列。
目前,VeOmni 的相关论文和代码仓库均已对外公开,GitHub Star 数超过 500。

arXiv:https://arxiv.org/pdf/2508.02317

GitHub:https://github.com/ByteDance-Seed/VeOmni


 1. 全模态大模型的训练挑战 

大模型逐渐展现出的全模态能力背后,是日益复杂的模型架构。典型的全模态理解生成统一模型,通常以语言模型为主干,连接着各种模态专属的编码器和解码器。它们如“感官”一样,可处理连续或离散的图像、音频等类型信号,赋予模型多种模态高度融合的理解和生成能力。

在长期的实践研究中,我们发现,直接将现有训练框架扩展到全模态大语言模型并非易事。

以 Megatron-LM 为代表,常用训练框架大多为纯文本 LLM 设计,这类框架的设计思路是“以系统为中心”,通常将模型定义与并行逻辑(如张量并行、流水线并行)紧密地“耦合”在一起,适合结构相对规整的文本模型。使用这些框架来训练结构复杂、模态多样的全模态模型时,往往会出现负载不均、扩展性差等问题。

更重要的是,这种“耦合”设计大大增加了工程开销。当团队尝试引入新模态,或调整模型结构时,经常需要深入底层,重写大量的分布式代码。同时,算法研究团队需要与工程团队紧密绑定,而不能快速、独立地验证不同想法,探索模型研究前沿问题。

尽管新一代的 PyTorch 原生训练框架(比如:TorchTitan)可以极大降低工程复杂度,但这些框架更多关注分布式系统设计本身,而对多模态模型缺乏关注。对于更复杂的“任意模态到任意模态”(any-to-any)场景,业内此前一直缺少一个成熟、可扩展的工业级分布式训练方案。


 2. VeOmni 核心设计:以模型为中心的分布式训练方案 

面对全模态模型训练的挑战,VeOmni 提出了以模型为中心的分布式训练方案。

在系统设计中,通用性与高性能之间往往需要权衡:针对特定场景的深度优化可以大幅提升性能表现,但会牺牲框架的灵活性。在全模态领域,模型架构仍在快速演进,不同模态的计算负载极不均衡,在当前技术探索高度活跃的背景下,框架的通用性和对创新的支持能力,其重要性远超对单一场景的极致性能压榨。

因此,我们的设计理念是“以模型为中心”:在确保通用性的前提下,再去追求高性能,让系统去适配快速变化的模型,而非让模型去迎合固化的系统。

VeOmni 将模型定义与底层分布式训练代码解耦,使 FSDP、SP、EP 等分布式策略,可灵活组合应用于不同的模型组件(如编码器、MoE 层),无需修改模型代码。

同时,VeOmni 提供轻量接口,支持新模态无缝集成,解决了现有框架因模型与并行逻辑耦合而导致的扩展性差、工程成本高等问题。

如下图所示,左侧为现有训练框架,其内部通信操作(Comm. Ops)往往与计算操作(Comp. Ops)深度耦合,穿插在模型代码的各个角落。右侧为 VeOmni 架构,其内部子模型都是纯粹的“计算模块”(Computation-Only Module),所有分布式通信的逻辑,都交由框架本身处理。

“即插即用”的全模态接口

为了让增加新模态变得轻松,VeOmni 设计了一套轻量级的全模态模型接口。

如图所示,该架构允许将多模态编码器和解码器任意组合,灵活地连接到基础模型的输入和输出端。任何模态的编解码器都只需要遵循统一、轻量级的HuggingFace 接口规范(如实现 lm_encode、lm_generate 等函数)即可快速接入。这一设计让研究者能快速、方便地在 LLM 基础上扩展任意模态,或切换各个独立子模块的模型结构。

“化繁为简”的 n-D 并行与统一调度

VeOmni 另一大特点在于“可组合性”。在解耦分布式代码和模型代码的同时,所有并行策略(FSDP、SP、EP)都可以像积木一样,被自由地应用到模型的不同组件上 。

如图所示,VeOmni 可以对视觉编码器使用 FSDP,同时对语言模型中的注意力部分使用 HSDP+SP、MoE 部分使用 FSDP+EP+SP,实现对复杂模型的灵活分布式优化。

为了实现这种灵活的分布式组合,VeOmni 基于 DeviceMesh(设备网格)设计了统一分布式抽象层 parallel_state 来控制所有并行维度。对比手动管理 process groups(分布式进程组),这一设计极大简化了 n-D 并行的管理复杂度,还提高了可扩展性。

  • 数据并行策略

VeOmni 集成了完全分片数据并行 (FSDP)策略,FSDP 关键优势之一在于非侵入式设计,适合训练结构不收敛的全模态大语言模型,这与 VeOmni 设计理念一致。

为了在超大规模集群上进一步优化,VeOmni 还支持了混合分片数据并行 (HSDP)策略。HSDP 利用一个 2D 设备网格,在节点内(shard group)使用 FSDP,在节点间(replicate group)使用分布式数据并行(DDP)方法。这种混合策略能大幅减少昂贵的跨节点通信,实现更高的扩展效率。在 VeOmni 中,从 FSDP 切换到更高效的 HSDP,用户只需在配置中更改一个 data_shard_size 参数。

bash train.sh tasks/train_torch.py \    --train.data_shard_size 8 \
  • 序列并行,支持超长序列

全模态模型需要处理高清图像、长视频、长音频等内容,对超长上下文(Long Context)窗口的支持至关重要。

为此,VeOmni 采用了 DeepSpeed Ulysses 序列并行技术,并进一步实现了 Async-Ulysses。通过将耗时的 All-to-All 通信操作与 Attention 中的线性投射计算(Linear Projection)并发执行,实现计算通信 Overlap,从而保证了在超长序列下的高效率训练和可扩展性。

同样,为了坚持以模型为中心的设计理念,VeOmni 设计了一个极其简单的分布式 flash_attention_forward 接口,可以做到不在模型层面引入任何分布式代码,实现高效序列并行。

具体代码见:https://github.com/ByteDance-Seed/VeOmni/blob/main/veomni/ops/attention.py

    • 专家并行,高效扩展 MoE 模型

    对于混合专家模型(MoE)的专家并行,VeOmni 设计了一个基于 torch DTenser 的 ParallelPlan 接口。

    只需指定对应参数的切分维度,并在训练时指定 expert_parallel_size,就可完成专家并行切分逻辑。

    • 灵活的算子级通信优化方法

    在 MoE 模型训练过程中,往往需要用 All-to-All 通信将 Tokens 路由到不同设备上的“专家”处,需要大量的通讯开销

    此前,业界主流解决方案通常依赖复杂的流水线并行调度(比如 Dualpipe),以掩盖通讯时间,但在多模态模型训练这种负载多变的场景中,这个和模型结构及计算相关的方法显得“僵化”且“非常不灵活” ,容易引入更多气泡(Bubble),造成计算资源大量浪费。

    VeOmni 采用了 Seed 团队研发的 COMET 细粒度计算-通信重叠技术,该系统的通信优化效果与模型结构大小无关,更加适合全模态的 MoE 模型训练,减少了 MoE 训练通信过程中的资源浪费。

    • 全方位的系统级优化

    除了核心的分布式优化,VeOmni 还集成了动态批处理(Dynamic Batching)、高效算子、重计算和内存优化、高效的检查点读写系统 ByteCheckpoint 等一系列系统优化,全方位提升全模态模型训练的效率和稳定性。


     3. VeOmni 实验结果:支持超长序列,全模态训练更高效 

    我们在 8 到 128 卡的 GPU 集群上,基于业界主流的开源模型,对 VeOmni 在多种模型和配置下的性能进行了系统性评测。

    较好地支持超长序列训练

    在处理高清图像和视频等模态时,模型需要支持极长上下文序列窗口,这对显存和计算效率是巨大考验。VeOmni 通过应用序列并行(SP)技术,能够较好应对这一挑战。

    如下图所示,面向 7B 的开源多模态理解模型,VeOmni 可支持的序列长度高达 192K,进一步扩展 SP 大小,还能进一步扩展序列长度。面向 72B 参数量的更大模型,VeOmni 也能支持到 96K

    上图实验基于 Qwen2-VL-7B,下图实验基于 Qwen2-VL-72B,展示了 VeOmni 2D 并行(FSDP+SP)在不同训练配置下的内存占用、MFU 和吞吐量。


    3D 并行策略提供更好的训练效率

    对于当前主流的 MoE 架构,VeOmni 通过 3D 并行策略(FSDP+SP+EP)实现了更好的训练效率。

    在支持语音理解、视觉理解与生成的全模态 30B MoE 模型上,VeOmni 不仅能适配 160K 超长序列,还能保持很高的训练吞吐量。

    上图的实验基于 Qwen3-30B-A3B 的全模态模型,展示了在 VeOmni 中使用 3D 并行(HSDP+SP+EP)不同训练配置下的内存占用和吞吐量。该模型采用 Qwen2.5-Omni 的 NaViT 作为图像和视频的编码器,Qwen2.5-Omni 的 Whisper 作为音频的编码器,以及 MoVQGAN 作为输出端的图像解码器。


    文本模型训练超越 TorchTitan

    为了更客观地评估 VeOmni 的性能,我们还在纯文本模型上,对 VeOmni 与业界先进的 TorchTitan 框架进行了详细的基准测试。

    结果显示,从 7B 到 72B 参数量级上,VeOmni 的吞吐量、内存效率均稳定优于 TorchTitan。尤其在长序列场景,VeOmni 凭借更优的内存管理和并行策略展现出更明显的优势。

    上表展示了 VeOmni 和 TorchTitan 在 128 GPUs 上训练 Qwen2-72B 的性能比较。

    训练稳定收敛

    除效率和可扩展性,训练稳定性也至关重要。我们使用 VeOmni “即插即用”的全模态接口构建了三款架构各异的全模态大模型,并在包含文本、图片、音频、视频的复杂任务上进行训练。

    结果显示,上述所有模型均可以稳定收敛,证明了 VeOmni 框架的鲁棒性和在真实训练场景中的有效性。

    从图中可看出,随着 Step 数值增加,不同模型的文本 Loss 和图像生成 Loss 都呈收敛趋势。LLaMA#Omni 和 Qwen3-MoE#Omni 分别使用 LLama 和 Qwen3-MoE 作为文本主干,并使用了 Qwen2.5-Omni 的 Navit(视觉编码器)+ MoVQGAN(图像解码器)+ Qwen2.5-Omni 的 Whisper(语音编码器)作为多模态编解码器。Janus 使用了 DeepSeek 的开源模型,该模型使用 Llama 为文本主干,SigLip 作为图像编码器,LlameGen 作为图像解码器。

    真实训练实践

    除在实验中展现出不错性能,VeOmni 已应用于字节跳动 Seed 团队的多个前沿项目中。

    比如,多模态智能体 UI-TARS-1.5 在训练中使用了大量长序列(>128k)、多模态的 Agent 数据,依托 VeOmni 强大的序列并行能力,团队解决了超长序列带来的显存瓶颈问题,实现了高效的模型训练。


     4. 总结与展望 

    VeOmni 的开源,旨在为 AI 社区提供一个高效、灵活、易用的任意模态模型训练解决方案。

    通过以模型为中心的设计理念,VeOmni 将模型与系统解耦,降低了全模态 AI 训练的工程壁垒,让研究者可以更专注于模型和算法本身的创新。

    未来,我们将进一步完善 VeOmni 框架,支持更多不同架构、规模的多模态模型训练需求,并持续向社区分享前沿的模型训练技术。

     点击“阅读原文”,了解更多团队信息!

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询