我要投稿

Seed Research｜理解与生成统一模型 BAGEL 开源，All-in-One Model！

发布日期：2025-05-28 17:27:07 浏览次数： 2391

作者：字节跳动Seed

微信搜一搜，关注“字节跳动Seed”

BAGEL 是字节跳动 Seed 最新开源的多模态基础模型，支持文本、图像和视频的统一理解和生成。团队实验发现，随着预训练用到的跨模态交错数据不断扩展，模型还涌现出了更强的复杂推理和组合能力，为更广泛、更通用的多模态功能奠定了基础。

在多项公开的多模态理解&成评测基准中，BAGEL 的表现显著超越此前的开源统一模型。同时，BAGEL 不仅支持视觉理解、图像编辑、风格迁移等先进闭源模型提供的核心功能，还提供 3D 空间导航等额外能力。

官网及体验入口：

https://seed.bytedance.com/bagel

GitHub 代码：

https://github.com/bytedance-seed/BAGEL

模型权重：

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

研究论文：

https://arxiv.org/pdf/2505.14683

多模态理解和生成功能的统一，一直是业内关注的重点方向。然而，现有的学术研究模型主要集中在标准图像-文本配对数据的训练上，在效果上与 GPT-4o、Gemini 2.0 等工业界闭源模型仍存在一定差距。

团队认为，缩小这一差距的关键在于使用结构严谨的多模态交错数据进行训练，以提升模型在复杂多模态任务上的表现。此外，现有模型还常受限于自身架构瓶颈而难以拓展，因此，开发不受架构约束、可拓展的多模态模型也是重要的研究方向之一。

基于此，团队开源了 BAGEL，同 AI 社区分享团队在这一领域的研究探索。

BAGEL 位列 Hugging Face Trending 首位

BAGEL 是一个理解-生成一体的、具有 7B 激活参数（总参数 14B）的多模态统一大模型，采用 MoT 架构，在大规模交错的文本、图像、视频和网页数据上进行预训练。

实验表明，随着训练数据的拓展，BAGEL 不仅增强了核心的多模态理解和生成能力，还涌现了更强的复杂组合能力，例如长文本推理结合多模态生成、自由图像编辑、未来帧预测、操控 3D 空间、世界导航等功能。

1. BAGEL 能力展示：All-in-One 多模态模型

Chat

BAGEL 基于大语言模型进行训练，具备基础的推理和对话能力，能够处理图像和文本的混合输入，并以混合格式输出。

混合输入-混合输出

Generation

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外，还引入了长思维链 COT（Chain-of-Thought）模式，模型在生成之前可先“思考”。

BAGEL 通过“思考”

生成了一个穿着毛衣的鳄鱼玩偶

Editing

基于交错的多模态数据预训练，BAGEL 自然地学会了保留视觉特征和细微细节，并且能从视频中捕捉复杂的视觉运动，这些能力使得 BAGEL 在图像编辑上更为高效。

基于同一人物形象进行图像编辑

Style Transfer

基于对视觉内容和风格的理解，BAGEL 仅使用较少的对齐数据，即可实现图片的风格切换，甚至还可转换至不同场景中。

BAGEL 实现多种风格迁移

Navigation

此外，BAGEL 还具备世界模型的基础能力，可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务，并进行不同角度的旋转或视角切换。同时，BAGEL 还具备较强的泛化能力，不仅在各类真实场景中，还能在游戏、艺术作品、卡通动画等场景中实现导航。

Composition

基于以上能力，BAGEL 还可通过一个统一的多模态接口，实现各项能力的复杂组合，进行多轮对话。

图片剪切-智能编辑-场景转换-风格转换

组合功能

2. BAGEL 能力涌现特性的“三阶段定律”

BAGEL 采用了一种混合 Transformer 专家（MoT）架构，以最大限度地提高模型从丰富的多模态信息中学习的能力。具体来看，模型由两个 Transformer 专家组成，一个专注于多模态理解，另一个专注于多模态生成。作为对应，也使用了 Und Encoder 和 Gen Encoder 两个独立的视觉编码器，分别用于捕捉图像的像素级和语义级特征。

BAGEL 的整体设计框架遵循「Next-Token-Prediction」范式，从而不断实现自我优化。

BAGEL 模型架构图

依托统一的 MoT 架构与海量跨模态交错数据，BAGEL 在理解与生成、图像与视频之间，展现出超越同类模型的智能演化轨迹。通过多个权威基准测试（VLM Benchmark、GenEval、GEdit 和 IntelligentBench），团队总结出 BAGEL 能力涌现的“三阶段”。

第一阶段：基础能力的涌现

模型首先掌握了多模态的“基本功”——图文理解与文本生成图像的能力。如图所示，BAGEL 在训练至约 1.5T tokens 时，已具备不错的图像生成质量。然而，像精准拼写文字、调整图像细节等能力，仍未完全显现，成为后续涌现的关键突破点。

第二阶段：传统编辑能力的涌现

随着训练推进至 2.5T～3.5T tokens，BAGEL 开始掌握多种基础编辑技巧，能够根据自然语言指令对图像局部进行灵活修改。图像编辑质量在这一阶段持续提升，尤其在细节保留与局部重绘方面达到了协调，展现出较强的跨模态理解与操作能力。

第三阶段：复杂操控与推理能力的涌现

在数据和参数进一步扩大后，模型突然展现出前所未见的复杂能力，如：

自由图像操控：理解复杂、开放式的编辑指令，进行精准且具有创意的图像修改。
未来帧预测：给定视频前几帧即可精准预测未来场景，体现出对动态世界的理解。
3D 空间操作：实现精细的 3D 物体旋转和视角调整。
世界导航：在虚拟场景中轻松理解并执行空间移动指令，展现出较强的空间感知能力。

如图所示，智能编辑能力直到「3.5T tokens 之后」才开始集中爆发，区别于早期的图像生成与基础编辑，标志着 BAGEL 在通向“世界建模智能体”的道路上，迈出了关键一步。

3. 性能评估：多模态理解与生成优于现有开源模型

为全面评估模型性能，团队参考了针对多模态理解、T2I 生成及图像编辑等领域的既有基准。但对于需要更强的推理的复杂编辑能力，目前仍缺乏有效的评估策略。因此，除了利用已有的基准之外，团队还设计了一套新的编辑基准，主要包含一些更复杂和更加要求智能的题目来测试模型的相关性能。

多模态理解能力

BAGEL 在多个视觉理解基准测试中表现突出，例如在 MME-S、MMBench、MMMU、MM-Vet、MathVista 和 MMVP 等任务上，其平均得分优于现有的开源模型，包括近期发布的 MetaMorph、MetaQuery、Janus-Pro 等。

图像生成能力

在 GenEval 基准测试中，BAGEL 达到了 88% 的总分，超过了专门的开源生成模型（如 FLUX-1-dev: 82% 和 SD3-Medium: 74%）以及其它开源统一模型（如 Janus-Pro: 80% 和 MetaQuery-XL: 80%）。

此外，在 WISE 基准测试中，BAGEL 的表现仅次于领先的闭源模型 GPT-4o。

图像编辑能力

在 GEdit-Bench 上，BAGEL 的表现与当前领先的图像编辑模型 Step1X-Edit 相当，并且超过了 Gemini 2.0。

在 IntelligentBench 上，BAGEL 的得分为 44.9，超过了 Step1X-Edit 模型（14.9）。

推理增强的编辑和生成能力

增加长思维链（CoT）推理后，BAGEL 在 WISE 上的得分达到了 0.70，比非 CoT 的 BAGEL 模型高出 0.18；在图像编辑任务 IntelligentBench 中，得分从 44.9 提高到 55.3。这表明，思维链的加入可显著提高模型在需要世界知识和多步复杂推理任务中的能力。

可视化对比

BAGEL 与主流模型的部分可视化对比：

目前，Seed 团队已完整开放 BAGEL 的模型权重、代码和演示平台，欢迎大家体验和反馈。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-05

AReaL v1.0 正式发布：面向 Agent 的全异步强化学习训练框架

2026-03-05

Qwen 和钉钉，无招和俊旸

2026-03-04

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解

2026-03-03

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-02

FireRed-OCR 开源发布：端到端方案新SOTA！小红书提出低成本文档识别训练范式

2026-03-02

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-01

别总盯着 Claude Cowork 了，OpenWork 开源版来了，功能直接拉满！Windows 客户端

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

2025-12-22

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

OpenWork：Claude Cowork 的开源替代品

2026-01-21

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw