微信扫码
添加专属顾问
我要投稿
SeedEdit 3.0,AI图像编辑新突破,引领视觉创意新潮流。 核心内容: 1. SeedEdit 3.0技术亮点与性能提升 2. 模型应用场景与实际效果展示 3. 技术报告、体验入口与测试方法介绍
Prompt:移除中间人物以外的所有行人
在 2D 绘画转为真实模特的任务中,SeedEdit 3.0 较好地保持了人物的衣帽穿搭与手提包等细节,生成图片兼具时尚街拍感。
Prompt:使女孩看起来逼真
整个场景的光影变换,模型也可以处理得丝滑、自然。从近处房屋,到远处海水波纹,细节均能合理保留下来,并跟随光线变化,进行“像素级”的渲染调整。
Prompt:把场景变为白天
为了实现上述能力,团队在 SeedEdit 3.0 的研发工作中提出了一种高效的数据融合策略,并构建了多种专用奖励模型。
通过将这些奖励模型与扩散模型联合训练,团队针对性地改善了关键任务的编辑质量(如人脸对齐、文本渲染等)。实际落地中,我们也对推理加速进行了同步优化。
Prompt:将“STOP”更改为“WARM”
为更好评估升级版的 SeedEdit 3.0,团队收集了数百张真实与合成的测试图像集合,共构建 23 类编辑操作子任务。除了常见的风格化、添加、替换和删除,我们还加入相机运动、物体位移、场景切换等指令式动作,以更全面评估模型表现。
机器评测结果
团队以 CLIP 图片相似度评估模型编辑保持效果,利用第三方 VLM 自动化评估“编辑需求是否在最终图片内体现”,即:指令响应程度。
在下方坐标图中,我们可以看到,SeedEdit 3.0 在编辑保持效果、指令响应能力上领先于此前版本 SeedEdit 1.0,以及引入新数据源的 SeedEdit 1.5、进一步加入数据合并策略的 SeedEdit 1.6。对比 Gemini 2.0 和 Step1X,SeedEdit 3.0 也有一定优势。我们同时观察到,GPT-4o 位于右下角,表明其图像保持能力较 SeedEdit 3.0 有差距,但指令遵循更为出色。
纵轴代表图像主体保持效果,横轴代表机器评测的指令响应程度
从下图则可以看到,SeedEdit 3.0 在人脸保持上,也有明显优势。
纵轴代表人脸保持效果,横轴同样代表机器评测的指令响应程度
真人评测结果
为增强评估参考性,团队还引入人工评价,采用 0–5 分制评估模型产出与预期差异,共分为五个维度:
指令遵循:评估模型是否准确响应编辑指令;
图像保持:评估模型是否修改了不该调整的部分;
生成质量:评估生成图像质量、美感高低、有无明显伪影;
用户满意度:评估不同方法编辑后图像的精品率;
可用率:编辑后生成图像结果被用户判断可用的占比。
在综合测评中,SeedEdit 3.0 的图像保持能力最为突出,保持能力得分达到 4.07 分(满分 5 分),较此前版本 SeedEdit 1.6 得分提升 1.19 分;SeedEdit 3.0 可用率达 56.1%,较 SeedEdit 1.6 绝对值增加 17.46 个百分点。同时,SeedEdit 3.0 的指令遵循、生成质量表现也处于行业前列。
不同图像编辑模型在可用率、用户满意度、指令遵循、图像保持、生成质量维度的表现
如下为部分对比案例。可以看到,SeedEdit 3.0 对非编辑区域的保持能力强,生成内容自然,细节保持较好,同时兼顾了美感。
通过定性比较能看到,SeedEdit 3.0 在人脸、物体/人物前景、图像细节保留、汉字更改和对齐方面有着较好表现
图像编辑任务训练的关键在于——让模型能“听懂”指令、理解不同任务差异、可在画面中区分出“需要改动”和“需要保持”部分。而数据是模型能力的基石,为此,团队专门开发了一套增强型数据融合策略。
考虑不同任务与场景,该方法构建了以下几个类别的数据:
合成数据集
我们专门设计了配对采样策略,该过程既包括语言模型与视觉理解模型生成的提示词采样,也包括文生图模型生成的噪声采样。此类数据使模型能够关注重要和长尾的任务类型与图像主体,理解各种主体姿势的几何推理变化。
编辑专家数据
团队以合规方式收集了一部分真实数据,其中包含大量专业图像编辑流程(例如:ComfyUI 工作流、背景&光线调整、文本编辑等),将上述数据与图像生成 API 联合构建出多条数据创建管道,充分覆盖各类专家场景。
传统人工编辑操作
我们还基于传统编辑工具制作了高质量编辑操作数据(如:镜头模糊、光照调整、裁剪、按模板生成海报等)。这些数据提供了准确的损失方向信息,进一步让模型“理解”编辑行为中“变”与“不变”的差异。
视频帧与多镜头
大规模多样化真实图像对泛化能力至关重要。视频素材为图像配对或组图提供了天然资源,可用于标注并支持图像编辑。于是,我们从视频素材中采样了编辑对——先从视频片段随机抽取若干关键帧,添加文字指令描述区别,再根据 CLIP 图像相似度和光流指标粗筛,最后应用 VLM 精筛。
通过上述方法,我们获取了更多领域的数据,尽可能减少跨领域数据处理产生的域间差距(Domain Gap)问题,提升了模型对图像任务的理解力,让其能像人类设计师一样,处理图像“要改”与“要保持住”的部分。
以下为部分构造的例子:
基于上述数据,我们促使扩散模型在真实数据与合成的“输入-输出编辑空间”进行交错学习,在不损失各种编辑任务信息的同时,提高对真实图片的编辑效果。具体训练框架如下:
我们从多个数据源收集元信息,将多个 Loss 融合并插入训练过程中
考虑到不同来源的编辑数据差异较大,直接加入到原始合成图像对将导致性能下降。比如,“更换为巴黎”指令在传统 P 图任务中,可能只涉及简单背景替换,但在基于扩散模型的 IP/ID 保留任务中,则可能意味着对所有像素的彻底修改。
为此,我们提出一种多粒度标签策略,有效融合不同来源的图像编辑数据。对于差别比较大的数据,可通过统一任务标签区分,面向差别较小的,则加入特殊 Caption 以区分,减小模型推理的随机性。鉴于模型需要兼顾中英双语场景,团队对提示词进行了采样,并使用 VLM 生成新的中英文描述。
最后,经过重新描述、过滤和对齐,所有数据均可用于正向和反向的编辑操作训练,从而实现了整体性能的平衡。
我们沿用此前验证过的框架:底层使用视觉理解模型,推断图像高层语义信息;顶层采用因果扩散网络,并在扩散过程中重新引入图像编码器,以捕捉细节信息。
在视觉理解模型与扩散模型之间,我们加入一条连接,用于将前者获取的编辑推理(如任务类型、编辑标签等)信息与后者对齐。
在其基础上,我们将扩散网络升级为 Seedream 3.0,可原生生成 1K 至 2K 分辨率图像,显著提升了输入图像细节(如人脸与物体特征)的保留效果。此外,这还使得 SeedEdit 3.0 获得了充分的双语文本理解和文本渲染能力,并可轻松拓展到多模态图像生成场景。
改造完成后的 SeedEdit 3.0 结构
为训练该架构,我们采用多阶段训练策略。其中,预训练旨在融合所有收集的图像对数据,精调则聚焦于微调并稳定编辑性能。
具体来说,我们先进行了多长宽比训练,依靠多分辨率批次训练,使模型从低分辨率逐步过渡到高分辨率。
在微调阶段,团队重新采样大量精调数据,从中选出高分辨率、高质量样本,结合多种模型过滤器和人工审核,对数据进行筛选,确保数据高质量且覆盖丰富的编辑类别。接着,采用扩散 Loss 对模型进行微调。
对于部分对用户价值极高的属性(例如人脸身份、一些细节结构或美感等),我们引入特定奖励模型作为额外 Loss,并赋予权重,提升 SeedEdit 3.0 在高价值能力上的表现。
最后,我们将编辑任务与 T2I 任务联合训练,这使得:
(1)注入高质量/高分辨率的 T2I 图像后,模型高分辨率图像编辑能力显著提升;
(2)模型可保留 T2I 模型能力,进一步增强泛化性能。
在训练与推理加速方面,SeedEdit 3.0 也采用了更为有效的方案:
蒸馏模型方法
我们的加速框架基于 Hyper-SD 和 RayFlow,通过为每个样本设定独特的目标分布,大幅减少路径重叠,提升了生成稳定性和输出多样性,避免了传统方法细粒度控制削弱、反向去噪不稳定的问题。
CFG 蒸馏
考虑到无类别引导(Classifier-Free Guidance,CFG)方法导致推理成本几乎翻倍,我们将 CFG 编码为一个可学习模块,与时间步编码联合嵌入。这种蒸馏方法实现约 2 倍的推理加速,且仍可按需调整引导强度。
统一噪声参照
为保证采样过程平滑过渡,我们引入由网络预测的单一噪声参照向量。该向量在每个时间步保持不变,为去噪阶段提供持续一致的引导,实现更稳健的采样和更逼真的重建。
自适应时间步采样
传统扩散训练过程损失方差较大,并在低信息量区间存在计算浪费,我们引入了一种自适应采样策略,在训练中,神经网络模块会重点选择对损失下降贡献最大的时间步,实现更具针对性的更新,使计算资源利用率提升,降低训练成本。
少步高保真采样
SeedEdit 3.0 的框架采用高度压缩去噪调度,相较标准方法,新框架让模型大幅减少采样步数,同时在美感、文本-图像对齐、结构准确性等关键指标上仍有较好表现。
量化
面向 DiT 模型的架构与规模,我们通过内核融合(kernel fusion)和内存访问合并(memory access coalescing)等技术手段,对特定算子进行了性能优化。
与原始结构相比,部分算子执行速度提升超过两倍。同时,我们还对 GEMM 和 Attention 模块进行了低比特量化,进一步提升了性能并节省内存。
尽管 SeedEdit 3.0 在图像保持、可用率等方面表现不错,团队同样也看到,其在指令遵循方面仍有一定提升空间。
未来,除进一步优化编辑性能外,团队还将探索更丰富的编辑操作,让模型拥有连续多图生成、多张图像合成、故事性内容生成等能力,帮助用户激发更多精彩创意
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-06
Anthropic官方揭秘内部团队如何使用 Claude Code(附完整版手册)
2025-06-05
如何构建AI Agent快速分析行业景气度
2025-06-05
MCP Server 之旅第 5 站:服务鉴权体系解密
2025-06-05
Cursor 1.0 正式发布!BugBot 自动代码审查,Background Agent 全面开放、MCP一键安装
2025-06-05
11张图全面总结 MCP、A2A、Function Calling 架构设计间关系
2025-06-05
一手实测地产首个Agent,实话说:不错!
2025-06-05
面向 Data+AI 的新一代数智开发平台
2025-06-05
AI测试平台开发的几点思考
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20
2025-06-05
2025-06-04
2025-06-04
2025-06-03
2025-06-02
2025-05-31
2025-05-29
2025-05-29