微信扫码
添加专属顾问
我要投稿
字节跳动Seed团队开源VeOmni框架,让全模态大模型训练像搭积木一样简单,工程耗时压缩90%以上!核心内容: 1. 全模态大模型训练的工程挑战与现有框架局限 2. VeOmni框架的创新设计:以模型为中心的分布式训练方案 3. 实际效果:300亿参数模型训练吞吐量达2800 tokens/sec/GPU
arXiv:https://arxiv.org/pdf/2508.02317
GitHub:https://github.com/ByteDance-Seed/VeOmni
大模型逐渐展现出的全模态能力背后,是日益复杂的模型架构。典型的全模态理解生成统一模型,通常以语言模型为主干,连接着各种模态专属的编码器和解码器。它们如“感官”一样,可处理连续或离散的图像、音频等类型信号,赋予模型多种模态高度融合的理解和生成能力。
在长期的实践研究中,我们发现,直接将现有训练框架扩展到全模态大语言模型并非易事。
以 Megatron-LM 为代表,常用训练框架大多为纯文本 LLM 设计,这类框架的设计思路是“以系统为中心”,通常将模型定义与并行逻辑(如张量并行、流水线并行)紧密地“耦合”在一起,适合结构相对规整的文本模型。使用这些框架来训练结构复杂、模态多样的全模态模型时,往往会出现负载不均、扩展性差等问题。
更重要的是,这种“耦合”设计大大增加了工程开销。当团队尝试引入新模态,或调整模型结构时,经常需要深入底层,重写大量的分布式代码。同时,算法研究团队需要与工程团队紧密绑定,而不能快速、独立地验证不同想法,探索模型研究前沿问题。
尽管新一代的 PyTorch 原生训练框架(比如:TorchTitan)可以极大降低工程复杂度,但这些框架更多关注分布式系统设计本身,而对多模态模型缺乏关注。对于更复杂的“任意模态到任意模态”(any-to-any)场景,业内此前一直缺少一个成熟、可扩展的工业级分布式训练方案。
面对全模态模型训练的挑战,VeOmni 提出了以模型为中心的分布式训练方案。
在系统设计中,通用性与高性能之间往往需要权衡:针对特定场景的深度优化可以大幅提升性能表现,但会牺牲框架的灵活性。在全模态领域,模型架构仍在快速演进,不同模态的计算负载极不均衡,在当前技术探索高度活跃的背景下,框架的通用性和对创新的支持能力,其重要性远超对单一场景的极致性能压榨。
因此,我们的设计理念是“以模型为中心”:在确保通用性的前提下,再去追求高性能,让系统去适配快速变化的模型,而非让模型去迎合固化的系统。
VeOmni 将模型定义与底层分布式训练代码解耦,使 FSDP、SP、EP 等分布式策略,可灵活组合应用于不同的模型组件(如编码器、MoE 层),无需修改模型代码。
同时,VeOmni 提供轻量接口,支持新模态无缝集成,解决了现有框架因模型与并行逻辑耦合而导致的扩展性差、工程成本高等问题。
如下图所示,左侧为现有训练框架,其内部通信操作(Comm. Ops)往往与计算操作(Comp. Ops)深度耦合,穿插在模型代码的各个角落。右侧为 VeOmni 架构,其内部子模型都是纯粹的“计算模块”(Computation-Only Module),所有分布式通信的逻辑,都交由框架本身处理。
为了让增加新模态变得轻松,VeOmni 设计了一套轻量级的全模态模型接口。
如图所示,该架构允许将多模态编码器和解码器任意组合,灵活地连接到基础模型的输入和输出端。任何模态的编解码器都只需要遵循统一、轻量级的HuggingFace 接口规范(如实现 lm_encode、lm_generate 等函数)即可快速接入。这一设计让研究者能快速、方便地在 LLM 基础上扩展任意模态,或切换各个独立子模块的模型结构。
VeOmni 另一大特点在于“可组合性”。在解耦分布式代码和模型代码的同时,所有并行策略(FSDP、SP、EP)都可以像积木一样,被自由地应用到模型的不同组件上 。
如图所示,VeOmni 可以对视觉编码器使用 FSDP,同时对语言模型中的注意力部分使用 HSDP+SP、MoE 部分使用 FSDP+EP+SP,实现对复杂模型的灵活分布式优化。
为了实现这种灵活的分布式组合,VeOmni 基于 DeviceMesh(设备网格)设计了统一分布式抽象层 parallel_state 来控制所有并行维度。对比手动管理 process groups(分布式进程组),这一设计极大简化了 n-D 并行的管理复杂度,还提高了可扩展性。
VeOmni 集成了完全分片数据并行 (FSDP)策略,FSDP 关键优势之一在于非侵入式设计,适合训练结构不收敛的全模态大语言模型,这与 VeOmni 设计理念一致。
为了在超大规模集群上进一步优化,VeOmni 还支持了混合分片数据并行 (HSDP)策略。HSDP 利用一个 2D 设备网格,在节点内(shard group)使用 FSDP,在节点间(replicate group)使用分布式数据并行(DDP)方法。这种混合策略能大幅减少昂贵的跨节点通信,实现更高的扩展效率。在 VeOmni 中,从 FSDP 切换到更高效的 HSDP,用户只需在配置中更改一个 data_shard_size 参数。
bash train.sh tasks/train_torch.py \
--train.data_shard_size 8 \
全模态模型需要处理高清图像、长视频、长音频等内容,对超长上下文(Long Context)窗口的支持至关重要。
为此,VeOmni 采用了 DeepSpeed Ulysses 序列并行技术,并进一步实现了 Async-Ulysses。通过将耗时的 All-to-All 通信操作与 Attention 中的线性投射计算(Linear Projection)并发执行,实现计算通信 Overlap,从而保证了在超长序列下的高效率训练和可扩展性。
同样,为了坚持以模型为中心的设计理念,VeOmni 设计了一个极其简单的分布式 flash_attention_forward 接口,可以做到不在模型层面引入任何分布式代码,实现高效序列并行。
具体代码见:https://github.com/ByteDance-Seed/VeOmni/blob/main/veomni/ops/attention.py
专家并行,高效扩展 MoE 模型
对于混合专家模型(MoE)的专家并行,VeOmni 设计了一个基于 torch DTenser 的 ParallelPlan 接口。
只需指定对应参数的切分维度,并在训练时指定 expert_parallel_size,就可完成专家并行切分逻辑。
在 MoE 模型训练过程中,往往需要用 All-to-All 通信将 Tokens 路由到不同设备上的“专家”处,需要大量的通讯开销。
此前,业界主流解决方案通常依赖复杂的流水线并行调度(比如 Dualpipe),以掩盖通讯时间,但在多模态模型训练这种负载多变的场景中,这个和模型结构及计算相关的方法显得“僵化”且“非常不灵活” ,容易引入更多气泡(Bubble),造成计算资源大量浪费。
VeOmni 采用了 Seed 团队研发的 COMET 细粒度计算-通信重叠技术,该系统的通信优化效果与模型结构大小无关,更加适合全模态的 MoE 模型训练,减少了 MoE 训练通信过程中的资源浪费。
除了核心的分布式优化,VeOmni 还集成了动态批处理(Dynamic Batching)、高效算子、重计算和内存优化、高效的检查点读写系统 ByteCheckpoint 等一系列系统优化,全方位提升全模态模型训练的效率和稳定性。
3. VeOmni 实验结果:支持超长序列,全模态训练更高效
我们在 8 到 128 卡的 GPU 集群上,基于业界主流的开源模型,对 VeOmni 在多种模型和配置下的性能进行了系统性评测。
较好地支持超长序列训练
在处理高清图像和视频等模态时,模型需要支持极长上下文序列窗口,这对显存和计算效率是巨大考验。VeOmni 通过应用序列并行(SP)技术,能够较好应对这一挑战。
如下图所示,面向 7B 的开源多模态理解模型,VeOmni 可支持的序列长度高达 192K,进一步扩展 SP 大小,还能进一步扩展序列长度。面向 72B 参数量的更大模型,VeOmni 也能支持到 96K。
上图实验基于 Qwen2-VL-7B,下图实验基于 Qwen2-VL-72B,展示了 VeOmni 2D 并行(FSDP+SP)在不同训练配置下的内存占用、MFU 和吞吐量。
3D 并行策略提供更好的训练效率
对于当前主流的 MoE 架构,VeOmni 通过 3D 并行策略(FSDP+SP+EP)实现了更好的训练效率。
在支持语音理解、视觉理解与生成的全模态 30B MoE 模型上,VeOmni 不仅能适配 160K 超长序列,还能保持很高的训练吞吐量。
上图的实验基于 Qwen3-30B-A3B 的全模态模型,展示了在 VeOmni 中使用 3D 并行(HSDP+SP+EP)不同训练配置下的内存占用和吞吐量。该模型采用 Qwen2.5-Omni 的 NaViT 作为图像和视频的编码器,Qwen2.5-Omni 的 Whisper 作为音频的编码器,以及 MoVQGAN 作为输出端的图像解码器。
文本模型训练超越 TorchTitan
为了更客观地评估 VeOmni 的性能,我们还在纯文本模型上,对 VeOmni 与业界先进的 TorchTitan 框架进行了详细的基准测试。
结果显示,从 7B 到 72B 参数量级上,VeOmni 的吞吐量、内存效率均稳定优于 TorchTitan。尤其在长序列场景,VeOmni 凭借更优的内存管理和并行策略展现出更明显的优势。
上表展示了 VeOmni 和 TorchTitan 在 128 GPUs 上训练 Qwen2-72B 的性能比较。
训练稳定收敛
除效率和可扩展性,训练稳定性也至关重要。我们使用 VeOmni “即插即用”的全模态接口构建了三款架构各异的全模态大模型,并在包含文本、图片、音频、视频的复杂任务上进行训练。
结果显示,上述所有模型均可以稳定收敛,证明了 VeOmni 框架的鲁棒性和在真实训练场景中的有效性。
从图中可看出,随着 Step 数值增加,不同模型的文本 Loss 和图像生成 Loss 都呈收敛趋势。LLaMA#Omni 和 Qwen3-MoE#Omni 分别使用 LLama 和 Qwen3-MoE 作为文本主干,并使用了 Qwen2.5-Omni 的 Navit(视觉编码器)+ MoVQGAN(图像解码器)+ Qwen2.5-Omni 的 Whisper(语音编码器)作为多模态编解码器。Janus 使用了 DeepSeek 的开源模型,该模型使用 Llama 为文本主干,SigLip 作为图像编码器,LlameGen 作为图像解码器。
真实训练实践
除在实验中展现出不错性能,VeOmni 已应用于字节跳动 Seed 团队的多个前沿项目中。
比如,多模态智能体 UI-TARS-1.5 在训练中使用了大量长序列(>128k)、多模态的 Agent 数据,依托 VeOmni 强大的序列并行能力,团队解决了超长序列带来的显存瓶颈问题,实现了高效的模型训练。
4. 总结与展望
VeOmni 的开源,旨在为 AI 社区提供一个高效、灵活、易用的任意模态模型训练解决方案。
通过以模型为中心的设计理念,VeOmni 将模型与系统解耦,降低了全模态 AI 训练的工程壁垒,让研究者可以更专注于模型和算法本身的创新。
未来,我们将进一步完善 VeOmni 框架,支持更多不同架构、规模的多模态模型训练需求,并持续向社区分享前沿的模型训练技术。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-14
从 0 到 1 做一款 AI 产品:技术怎么搭、成本如何控制、销售策略怎么定?
2025-08-14
n8n部署RAG太麻烦?MCP+自然语言搞定n8n workflow 的时代来了!
2025-08-14
建筑+AI:从建筑行业的方圆图谈AI赋能
2025-08-14
提示词:拟写金融服务解决方案
2025-08-14
为什么构建 AI agent 的工程量往往比想象的大?
2025-08-14
万字解码 Agentic AI 时代的记忆系统演进之路
2025-08-14
这个被老外疯抢邀请码的Agent真的会做生意...测试后我有点想大展宏图
2025-08-14
3个真相,带你看清AI的记忆与能力
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-14
2025-08-14
2025-08-13
2025-08-13
2025-08-11
2025-08-11
2025-08-11
2025-08-11