免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全,全为一

发布日期:2025-12-09 18:18:57 浏览次数: 1552
作者:百灵大模型

微信搜一搜,关注“百灵大模型”

推荐语

Ming-Flash-Omni突破多模态AI界限,以统一架构实现视觉、语音、文本的全能理解与生成,效率与性能双领先。

核心内容:
1. 基于稀疏MoE架构的统一多模态设计
2. 在语音识别、图像生成等任务刷新多项SOTA
3. 百亿参数规模下仅激活6.1B参数的高效推理

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Ming-Flash-Omni 是一个基于稀疏混合专家(MoE)架构的统一多模态大模型,在视觉、语音、图像、文本全模态上同时实现领先的理解与生成能力,以 100B 总参数、仅 6.1B 激活参数的高效设计,刷新多项 SOTA 记录。

在通往通用人工智能(AGI)的道路上,人类智能的一个关键特征是多模态信息的统一处理能力:我们能看图说话、听音识义、依文作画。然而,当前多数多模态大模型仍采用“感知-生成分离”的设计,导致理解与生成目标割裂、控制粒度粗糙、系统复杂度高。

蚂蚁集团 Inclusion AI 团队近期推出了 Ming-Flash-Omni 预览版, 并同步公开了 Ming-Flash-Omni 背后的技术报告。作为 Ming-Lite-Omni 的升级版,Ming-Flash-Omni 基于稀疏 MoE 架构,在一个统一模型中高效融合视觉、语音、语言三大模态的理解与生成能力。Ming-Flash-Omni 不仅在多项权威基准上刷新 SOTA,更通过架构创新与训练范式重构,为构建高效、可控、可扩展的多模态 AGI 提供了新路径。

技术报告: https://arxiv.org/abs/2510.24821

【Ming-Flash-Omni 预览版下载及体验地址】

GitHub: https://github.com/inclusionAI/Ming

Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview

ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview

核心摘要亮点

Ming-Flash-Omni 由蚂蚁集团 Inclusion AI 团队推出,是 Ming-Omni 往千亿级 Scaling 的初步探索。它不仅是“能看、能听、会说、会画”的全能 AI,更在以下方向取得突破性进展:

  • 统一架构单一模型能够同时处理理解(如 OCR、视频问答)与生成(如 TTS、文生图、图像编辑),实现全模态能力集中化部署。

  • 极致效率:基于 Ling-Flash-2.0 的稀疏 MoE 架构,推理时仅激活 6.1B 参数,兼顾百亿级容量与低延迟响应。

  • 语音识别在全部 12 项 ContextASR 基准上达到 SOTA,显著提升上下文感知与方言识别能力(覆盖 15 种中文方言)。

  • 图像生成:支持高保真文本渲染、身份一致性编辑,并首次引入 生成式分割(Generative Segmentation),实现像素级语义控制。

模型结构

Ming-Flash-Omni 采用 “感知-生成”两阶段统一架构,核心基于 Ling-Flash-2.0(100B 总参数,6.1B/Token 激活)的稀疏 Mixture-of-Experts(MoE)语言模型。

整个架构如图所示:多模态输入 → 统一 MoE 主干 → 并行生成视觉/语音输出,实现“一脑多能”。


Ming-Flash-Omni 的核心由三大组件构成——多模态编码器稀疏 MoE 主干专用生成头,共同支撑其高效、精准的多模态理解与生成能力。

1、多模态编码器:模态特化,时序增强

  • 视觉编码器视觉编码器原生支持高分辨率图像与视频输入,并引入 VideoRoPE 位置编码,有效建模长视频中的时序动态与帧间依赖关系。

  • 音频编码器采用Whisper Encoder提取音频表示,在原始 Whisper 权重基础上,进一步在 70 万小时高质量语音数据上进行加训,显著提升对中文语音、口音及上下文语义的建模能力,最大限度保留原始音频的丰富信息,同时具备声学和语义特征。

2、统一主干: Ling-Flash-2.0 稀疏 MoE

1)总参数规模达 100B,推理时每 token 仅激活 6.1B 参数,实现大容量与低延迟的平衡;

2)采用双平衡机制稳定 MoE 训练:

  • 结合辅助负载均衡损失(auxiliary load-balancing loss)与 路由器偏置动态更新(per-router bias update),有效缓解专家负载不均问题,提升收敛稳定性;

3)配备模态专属路由机制(Modality-Specific Routers):

  • 分别设计 V-Router(视觉)、A-Router(音频)、T-Router(文本),根据模态动态分配 token 至最适配的专家子网络。

3、生成头:轻量高效,任务专用

1)语音生成头:

  • 采用预训练音频头,输入为 LLM 生成的文本 token + 下采样 VAE latent,输出用于 flow-matching 的条件信号;

2)图像生成头:

  • 采用轻量 DiT解码器,支持文本->图像、图像编辑;

  • 创新引入 Refiner 模块,将高层语义 token 转化为像素级掩码,实现referring expression segmentation(如“分割图中的红色汽车”),为生成式分割与精细编辑提供空间控制基础。

训练策略

Ming-Flash-Omni 采用 “感知 → 生成”两阶段解耦训练范式,在保证模型稳定性的同时,最大化理解与生成能力的协同增益。

1、感知阶段(冻结所有生成头)

1)预训练在大规模图文音视频语料上学习跨模态对齐表示;

2)指令微调(SFT):提升模型对多模态指令的理解与响应能力;

3)Coherent RL 对齐

  • 首先采用 D-GRPO(Dynamic GRPO),在具备可验证答案的任务(如数学推理、OCR、事实问答)上,通过动态采样与任务奖励机制强化正确推理链;

  • 随后引入 U-DPO(Unified DPO),在人类偏好数据上进行对齐,并额外加入指令微调辅助损失,有效缓解 DPO 训练中的指令遵循退化问题,提升输出风格一致性与任务遵从性。

2、生成阶段(冻结感知主干)

1)图像生成

  • 基于 Flow Matching 目标预训练轻量 DiT 解码器,实现高质量文生图;

  • 为支持图像编辑,将参考图像的 VAE 潜变量与去噪过程中的噪声 latent 拼接,作为条件输入,强制生成结果与原图在结构和语义上保持一致;

  • 引入 ByteT5 词级 caption 编码器,将细粒度文本描述注入生成过程,显著增强文本条件密度与语义对齐精度。

2)语音生成

  • 复用提前预训练好的连续声学生成模型(基于VAE-GAN的统一语音 tokenizer + flow-matching 声码器),未进行任何微调或端到端联合训练,既保障了TTS的高保真度,又显著降低训练成本与复杂度。

工程优化

与传统大语言模型(LLM)相比,多模态基础模型的训练面临两大核心工程挑战:

  • 数据异构性训练过程中需动态切换文本、图像、音频、视频等多种模态,其输入张量在序列长度、分辨率、采样率等方面差异巨大,导致 batch 内样本长度高度不均,引发严重的显存碎片与计算负载不均衡

  • 模型异构性除主干 Transformer 外,还需集成视觉编码器(如 ViT)、音频编码器(如 Whisper-style CNN/Transformer)等异构子模块。这些轻量但计算密集的编码器若并行策略不当,极易在流水线并行中产生空泡(pipeline bubble),拖累整体吞吐。

为应对上述挑战,Ming-Flash-Omni 基于 Megatron-LM 框架进行了深度定制,引入两项关键优化:

  • 序列打包(Sequence Packing):将多个变长的图文音视频样本密集拼接至固定长度的训练序列中,显著提升 GPU 显存利用率与计算密度,实测 GPU 利用率提升 40%+

  • 灵活编码器分片(Flexible Encoder Sharding):支持视觉/音频编码器在数据并行(DP)、张量并行(TP)、流水线并行(PP)三个维度自由切分,实现与主干 MoE 模型的负载均衡协同,有效消除 pipeline bubble。

得益于上述优化,Ming-Flash-Omni 的整体训练吞吐较基线 Megatron-LM 提升 2 倍以上,成功支撑百亿参数稀疏 MoE 模型在大规模多模态数据上的高效、稳定收敛。

评估结果

我们在 50+ 公开与内部基准上对 Ming-Flash-Omni 预览版进行了系统性评测,覆盖视觉、语音、视频、多模态交互四大维度。评估结果表明,其不仅在单项任务上刷新纪录,更在统一架构下实现理解与生成能力的协同领先

  • 视觉理解在 OCR、多图推理、视频时序理解等任务上达到主流 Omni 模型水平;

  • 图像生成:在图像生成 GenEval 基准上取得 0.90 的高分, 为当前非强化学习方法中的最佳结果,尤其在位置与颜色等细粒度控制上优势明显;

  • 图像编辑与分割编辑一致性与生成式分割性能大幅超越同类统一模型,支持高保真身份保留、文本渲染及像素级语义操控;

  • 语音理解:在全部 12 项 ContextASR 基准上达到SOTA,上下文感知与命名实体识别能力显著优于现有 Omni 模型。

未来展望

当前开源的 Ming-Flash-Omni 预览版是我们在全模态模型上往千亿级 Model Scaling 的初步探索,其在全模态模型中整体展现出领先水准,但在部分 VL 能力上相比业界领先的专用 VL 大模型仍存在一定差距,我们仍在持续探索全模态 omni 模型的效果上限,Ming-Flash-Omni 正式版会很快跟大家见面。

点击【阅读原文】,查看完整技术报告

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询