微信扫码
添加专属顾问
我要投稿
其他信息
模型速览
模型为 2B,针对消费级 PC 和企业级 GPU 优化,擅长处理复杂提示并生成高质量图像。用户可以通过 Stability Platform、Stable Assistant 和 Stable Artisan 进行试用,并与 NVIDIA 和 AMD 合作优化性能。
独特之处
逼真度:解决了手部和面部的常见瑕疵问题,生成高质量图像,无需复杂工作流程。
精准理解:能够理解空间关系、构图元素、动作和风格的复杂提示。
字体生成:借助 Diffusion Transformer 架构,在生成文本时实现前所未有的效果,没有伪影和拼写错误。
资源高效:低显存占用,适合在标准消费级 GPU 上运行而不影响性能。
精细调优:能从小数据集中吸收细微细节,适合定制化需求。
投稿自大佬:ZHO
ZHO - 真 · 赛博菩萨
不用下载,开箱即用
(需 Colab Pro)
项目地址
https://colab.research.google.com/drive/1pcr1otfG5hs5N7IqpwZdxcj4EbbYF7ot
SD3 Medium Base工作流(已加入工作流合集)
https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO
SD3 Medium 说明
1)基础模型 1+3:(上图)
主模型:sd3_medium
文本编码器:clip_g、clip_l、t5xxl_fp16/t5xxl_fp8_e4m3fn
使用:在 ComfyUI 中使用时需分别通过模型加载器和CLIP加载器加载,t5xxl是非必要项
2)融合了文本编码器的模型 2 个:(下图)
无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l
有T5:sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn
使用:在 ComfyUI 中使用时直接用模型加载器加载主模型即可,无需CLIP加载器(如同之前的SD1.5或SDXL的基础工作流)
来自 Diffuseum 众测
我也是光荣一员
欢迎参与!!
https://wbe2qcwjls.feishu.cn/docx/ZGLcdZt7coQM1YxVmrpcBvb0nhb
宙宙
(需 Colab Pro)
之前听闻SD3开源版本和API表现效果会有差异,又看到开放的是一个不大的2B版本,所以接着更新了上次SD3 API和主流生图网站的测试对比文档。初步测试的感受:
开源版本和API效果差别不大,开源还是很有诚意的!!
Medium在2B的体量下语义理解能力不错,对于多个意象的控制和API差不多,相较XL都有明显的提升;后期可以再搭配社区的延伸,上限很高
开源版本的美学和API相比各有差异,艺术风格的表现上弱了点,但是写实类差别不大,甚至部分情形更佳
本版本在对齐和安全上花费了大量努力,可以看出屏蔽了不少概念,些许矫枉过正,会出现雕塑穿内衣的情况
Medium生成超长文字在画面上时有时候会崩,API更稳定一些
测试
还有更多,等你来测...
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-06
智能履约:当大模型遇上供应链物流效率问题,这场革命悄然而至
2025-05-05
AI Agent"社交网络"来了!最新研究揭示AI Agent通信协议全景图
2025-05-05
慢生意快迭代:滴普科技的7年反共识「突围」
2025-05-01
Agent2Agent 协议详解:Google 引领打造通用 AI 代理通信标准
2025-05-01
万字一手实测Prover-V2-671B数学证明模型
2025-04-30
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
2025-04-30
深度解析OpenAI和Google智能体白皮书及背后两种路线|大模型研究
2025-04-30
MCP入门指南:大模型时代的USB接口
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28