我要投稿

解锁任意模态模型训练，字节跳动Seed开源VeOmni框架

发布日期：2025-08-14 17:11:34 浏览次数： 1736

作者：字节跳动Seed

微信搜一搜，关注“字节跳动Seed”

近年来，大模型技术正从单一文本模态，向包含图像、语音、视频等多种信息的“全模态”（Omni-Modal）理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型，依然面临着系统性的工程挑战。

为推动全模态大模型的研究与应用，字节跳动 Seed 团队发布并开源了全模态 PyTorch 原生训练框架——VeOmni。

VeOmni 采用以模型为中心的分布式训练方案，可将复杂的分布式并行逻辑与模型计算解耦，让研究员像搭积木一样，为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销，提升训练效率和扩展性，将数周的工程开发时间缩短至几天。

此前，使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型，往往需要一周以上进行工程研发，以及更长时间推进分布式优化和精度对齐，且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建，开启训练任务，工程耗时可压缩 90% 以上。

实验结果表明，基于 VeOmni 框架，一个 300 亿参数的全模态 MoE 模型（支持文本、语音、图片、视频的理解和生成），在 128 张卡上训练吞吐量可超过 2800 tokens/sec/GPU，并能轻松扩展至 160K 超长上下文序列。

目前，VeOmni 的相关论文和代码仓库均已对外公开，GitHub Star 数超过 500。

arXiv：https://arxiv.org/pdf/2508.02317

GitHub：https://github.com/ByteDance-Seed/VeOmni

1. 全模态大模型的训练挑战

大模型逐渐展现出的全模态能力背后，是日益复杂的模型架构。典型的全模态理解生成统一模型，通常以语言模型为主干，连接着各种模态专属的编码器和解码器。它们如“感官”一样，可处理连续或离散的图像、音频等类型信号，赋予模型多种模态高度融合的理解和生成能力。

在长期的实践研究中，我们发现，直接将现有训练框架扩展到全模态大语言模型并非易事。

以 Megatron-LM 为代表，常用训练框架大多为纯文本 LLM 设计，这类框架的设计思路是“以系统为中心”，通常将模型定义与并行逻辑（如张量并行、流水线并行）紧密地“耦合”在一起，适合结构相对规整的文本模型。使用这些框架来训练结构复杂、模态多样的全模态模型时，往往会出现负载不均、扩展性差等问题。

更重要的是，这种“耦合”设计大大增加了工程开销。当团队尝试引入新模态，或调整模型结构时，经常需要深入底层，重写大量的分布式代码。同时，算法研究团队需要与工程团队紧密绑定，而不能快速、独立地验证不同想法，探索模型研究前沿问题。

尽管新一代的 PyTorch 原生训练框架（比如：TorchTitan）可以极大降低工程复杂度，但这些框架更多关注分布式系统设计本身，而对多模态模型缺乏关注。对于更复杂的“任意模态到任意模态”（any-to-any）场景，业内此前一直缺少一个成熟、可扩展的工业级分布式训练方案。

2. VeOmni 核心设计：以模型为中心的分布式训练方案

面对全模态模型训练的挑战，VeOmni 提出了以模型为中心的分布式训练方案。

在系统设计中，通用性与高性能之间往往需要权衡：针对特定场景的深度优化可以大幅提升性能表现，但会牺牲框架的灵活性。在全模态领域，模型架构仍在快速演进，不同模态的计算负载极不均衡，在当前技术探索高度活跃的背景下，框架的通用性和对创新的支持能力，其重要性远超对单一场景的极致性能压榨。

因此，我们的设计理念是“以模型为中心”：在确保通用性的前提下，再去追求高性能，让系统去适配快速变化的模型，而非让模型去迎合固化的系统。

VeOmni 将模型定义与底层分布式训练代码解耦，使 FSDP、SP、EP 等分布式策略，可灵活组合应用于不同的模型组件（如编码器、MoE 层），无需修改模型代码。

同时，VeOmni 提供轻量接口，支持新模态无缝集成，解决了现有框架因模型与并行逻辑耦合而导致的扩展性差、工程成本高等问题。

如下图所示，左侧为现有训练框架，其内部通信操作（Comm. Ops）往往与计算操作（Comp. Ops）深度耦合，穿插在模型代码的各个角落。右侧为 VeOmni 架构，其内部子模型都是纯粹的“计算模块”（Computation-Only Module），所有分布式通信的逻辑，都交由框架本身处理。

“即插即用”的全模态接口

为了让增加新模态变得轻松，VeOmni 设计了一套轻量级的全模态模型接口。

如图所示，该架构允许将多模态编码器和解码器任意组合，灵活地连接到基础模型的输入和输出端。任何模态的编解码器都只需要遵循统一、轻量级的HuggingFace 接口规范（如实现 lm_encode、lm_generate 等函数）即可快速接入。这一设计让研究者能快速、方便地在 LLM 基础上扩展任意模态，或切换各个独立子模块的模型结构。

“化繁为简”的 n-D 并行与统一调度

VeOmni 另一大特点在于“可组合性”。在解耦分布式代码和模型代码的同时，所有并行策略（FSDP、SP、EP）都可以像积木一样，被自由地应用到模型的不同组件上。

如图所示，VeOmni 可以对视觉编码器使用 FSDP，同时对语言模型中的注意力部分使用 HSDP+SP、MoE 部分使用 FSDP+EP+SP，实现对复杂模型的灵活分布式优化。

为了实现这种灵活的分布式组合，VeOmni 基于 DeviceMesh（设备网格）设计了统一分布式抽象层 parallel_state 来控制所有并行维度。对比手动管理 process groups（分布式进程组），这一设计极大简化了 n-D 并行的管理复杂度，还提高了可扩展性。

数据并行策略

VeOmni 集成了完全分片数据并行 (FSDP)策略，FSDP 关键优势之一在于非侵入式设计，适合训练结构不收敛的全模态大语言模型，这与 VeOmni 设计理念一致。

为了在超大规模集群上进一步优化，VeOmni 还支持了混合分片数据并行 (HSDP)策略。HSDP 利用一个 2D 设备网格，在节点内（shard group）使用 FSDP，在节点间（replicate group）使用分布式数据并行（DDP）方法。这种混合策略能大幅减少昂贵的跨节点通信，实现更高的扩展效率。在 VeOmni 中，从 FSDP 切换到更高效的 HSDP，用户只需在配置中更改一个 data_shard_size 参数。

bash train.sh tasks/train_torch.py \    --train.data_shard_size 8 \

序列并行，支持超长序列

全模态模型需要处理高清图像、长视频、长音频等内容，对超长上下文（Long Context）窗口的支持至关重要。

为此，VeOmni 采用了 DeepSpeed Ulysses 序列并行技术，并进一步实现了 Async-Ulysses。通过将耗时的 All-to-All 通信操作与 Attention 中的线性投射计算（Linear Projection）并发执行，实现计算通信 Overlap，从而保证了在超长序列下的高效率训练和可扩展性。

同样，为了坚持以模型为中心的设计理念，VeOmni 设计了一个极其简单的分布式 flash_attention_forward 接口，可以做到不在模型层面引入任何分布式代码，实现高效序列并行。

具体代码见：https://github.com/ByteDance-Seed/VeOmni/blob/main/veomni/ops/attention.py

专家并行，高效扩展 MoE 模型

对于混合专家模型（MoE）的专家并行，VeOmni 设计了一个基于 torch DTenser 的 ParallelPlan 接口。

只需指定对应参数的切分维度，并在训练时指定 expert_parallel_size，就可完成专家并行切分逻辑。

灵活的算子级通信优化方法

在 MoE 模型训练过程中，往往需要用 All-to-All 通信将 Tokens 路由到不同设备上的“专家”处，需要大量的通讯开销。

此前，业界主流解决方案通常依赖复杂的流水线并行调度（比如 Dualpipe），以掩盖通讯时间，但在多模态模型训练这种负载多变的场景中，这个和模型结构及计算相关的方法显得“僵化”且“非常不灵活” ，容易引入更多气泡（Bubble），造成计算资源大量浪费。

VeOmni 采用了 Seed 团队研发的 COMET 细粒度计算-通信重叠技术，该系统的通信优化效果与模型结构大小无关，更加适合全模态的 MoE 模型训练，减少了 MoE 训练通信过程中的资源浪费。

全方位的系统级优化

除了核心的分布式优化，VeOmni 还集成了动态批处理（Dynamic Batching）、高效算子、重计算和内存优化、高效的检查点读写系统 ByteCheckpoint 等一系列系统优化，全方位提升全模态模型训练的效率和稳定性。

3. VeOmni 实验结果：支持超长序列，全模态训练更高效

我们在 8 到 128 卡的 GPU 集群上，基于业界主流的开源模型，对 VeOmni 在多种模型和配置下的性能进行了系统性评测。

较好地支持超长序列训练

在处理高清图像和视频等模态时，模型需要支持极长上下文序列窗口，这对显存和计算效率是巨大考验。VeOmni 通过应用序列并行（SP）技术，能够较好应对这一挑战。

如下图所示，面向 7B 的开源多模态理解模型，VeOmni 可支持的序列长度高达 192K，进一步扩展 SP 大小，还能进一步扩展序列长度。面向 72B 参数量的更大模型，VeOmni 也能支持到 96K。

上图实验基于 Qwen2-VL-7B，下图实验基于 Qwen2-VL-72B，展示了 VeOmni 2D 并行（FSDP+SP）在不同训练配置下的内存占用、MFU 和吞吐量。

3D 并行策略提供更好的训练效率

对于当前主流的 MoE 架构，VeOmni 通过 3D 并行策略（FSDP+SP+EP）实现了更好的训练效率。

在支持语音理解、视觉理解与生成的全模态 30B MoE 模型上，VeOmni 不仅能适配 160K 超长序列，还能保持很高的训练吞吐量。

上图的实验基于 Qwen3-30B-A3B 的全模态模型，展示了在 VeOmni 中使用 3D 并行（HSDP+SP+EP）不同训练配置下的内存占用和吞吐量。该模型采用 Qwen2.5-Omni 的 NaViT 作为图像和视频的编码器，Qwen2.5-Omni 的 Whisper 作为音频的编码器，以及 MoVQGAN 作为输出端的图像解码器。

文本模型训练超越 TorchTitan

为了更客观地评估 VeOmni 的性能，我们还在纯文本模型上，对 VeOmni 与业界先进的 TorchTitan 框架进行了详细的基准测试。

结果显示，从 7B 到 72B 参数量级上，VeOmni 的吞吐量、内存效率均稳定优于 TorchTitan。尤其在长序列场景，VeOmni 凭借更优的内存管理和并行策略展现出更明显的优势。

上表展示了 VeOmni 和 TorchTitan 在 128 GPUs 上训练 Qwen2-72B 的性能比较。

训练稳定收敛

除效率和可扩展性，训练稳定性也至关重要。我们使用 VeOmni “即插即用”的全模态接口构建了三款架构各异的全模态大模型，并在包含文本、图片、音频、视频的复杂任务上进行训练。

结果显示，上述所有模型均可以稳定收敛，证明了 VeOmni 框架的鲁棒性和在真实训练场景中的有效性。

从图中可看出，随着 Step 数值增加，不同模型的文本 Loss 和图像生成 Loss 都呈收敛趋势。LLaMA#Omni 和 Qwen3-MoE#Omni 分别使用 LLama 和 Qwen3-MoE 作为文本主干，并使用了 Qwen2.5-Omni 的 Navit（视觉编码器）+ MoVQGAN（图像解码器）+ Qwen2.5-Omni 的 Whisper（语音编码器）作为多模态编解码器。Janus 使用了 DeepSeek 的开源模型，该模型使用 Llama 为文本主干，SigLip 作为图像编码器，LlameGen 作为图像解码器。

真实训练实践

除在实验中展现出不错性能，VeOmni 已应用于字节跳动 Seed 团队的多个前沿项目中。

比如，多模态智能体 UI-TARS-1.5 在训练中使用了大量长序列（>128k)、多模态的 Agent 数据，依托 VeOmni 强大的序列并行能力，团队解决了超长序列带来的显存瓶颈问题，实现了高效的模型训练。

4. 总结与展望

VeOmni 的开源，旨在为 AI 社区提供一个高效、灵活、易用的任意模态模型训练解决方案。

通过以模型为中心的设计理念，VeOmni 将模型与系统解耦，降低了全模态 AI 训练的工程壁垒，让研究者可以更专注于模型和算法本身的创新。

未来，我们将进一步完善 VeOmni 框架，支持更多不同架构、规模的多模态模型训练需求，并持续向社区分享前沿的模型训练技术。