微信扫码
添加专属顾问
我要投稿
“AI绘画在各个领域都能带来不同的赋能价值,我们也在不断探索AIGC的落地可能性,因为我们相信,未来是AI+的时代,它能重塑生产力、丰富我们的生活、工作,甚至人的精神世界。”——Jimmy
更多AI前沿科技资讯,请关注我们:
在人工智能和机器学习领域,开源项目一直是推动技术进步和创新的重要力量。最近,Stable Diffusion 3 (SD3) 及其配套的 ComfyUI 工作流和模型的开源。
最初,SD3宣布不再开源,许多人猜测Stability AI可能会效仿OpenAI的做法,即在发布几个开源版本后转为闭源模式。然而,令人意外的是,在2024年6月3日的Computex大会上,Stability AI的联合CEO Christian Laforte正式宣布,SD 3 Medium版本将于6月12日向公众开放。为开发者和爱好者们带来了全新的工具和可能性。我们有幸第一时间体验了这一最新成果,并在此与大家分享我的试用体验。
直接放下载地址:
huggingface:https://huggingface.co/stabilityai/stable-diffusion-3-medium
大家想要尝鲜,自行上去下载哟。
一、Stable Diffusion 3 (SD3) 简介
Stable Diffusion 3(简称SD3)是由Stability AI开发的一款开源的AI图像生成模型。它在2024年6月12日正式对外开源,这一消息是在Computex 2024大会上由Stability AI的联合首席执行官Christian Laforte宣布的。SD3的Medium模型包含20亿参数,相较于前代产品,在照片真实感、样式、图片质量以及算力资源消耗等方面都进行了显著的优化。
SD3的架构采用了Diffusion Transformer,这是一种结合了Diffusion模型和Transformer架构的技术。Diffusion模型通过数据到噪声的逆过程来创造新的数据点,而Transformer架构则通过独立的权重处理图像和文本模态,并实现了这两种模态之间的双向信息流。这种结合使得SD3在文本语义理解、文字嵌入和图片样式等方面表现出色。
SD3在训练过程中使用了合成数据和筛选过的公开数据,进行了大规模的预训练,并针对特定视觉内容和风格进行了微调。此外,Stability AI还对SD3进行了严格的检查工作,以确保输出内容的质量和安全性。
开源后,SD3迅速受到了社区的热烈欢迎,许多开发者和用户已经开始使用这一模型生成高质量的图像,并分享了他们的作品2。SD3的开源对于推动AI图像生成技术的发展和普及具有重要意义,尽管Stability AI自身在发布过程中遇到了一些挑战,包括前首席执行官Emad Mostaque的离职和财务危机等。
总的来说,SD3是一款强大的AI图像生成工具,它的开源为AI艺术创作和相关领域的研究提供了新的可能。
二、下载安装
如下图示,下载框住的内容。
1、
这个是官网工作流。
2、
这个是clip模型,包括以下内容:
clip下载后,放comyUI/models/clip中
3、这些是SD3模型,一般我们只要前三个,电脑配置好的可以全下载。
下载后,放comyUI/models/checkpoint中
然后重启comfyUI。
把工作流拖入运行。
三、运行测试
我们在SD3官网工作流中,加入了一些翻译节点,用中文直接写提示词,同时加入提示词反推。
接下来我们就用不同的提示词来生成一些,来看看它的表现。
四、总结
目前只是SD3的工作流还有局限性,一定要用官网的工作流程,目前也只能文生图功能,虽然对自然语言理解更为准确,但的确是存在优化空间,相信后面会不断优化。
“
AI绘画在各个领域都能带来不同的赋能价值,我们也在不断探索AIGC的落地可能性,因为我们相信,未来是AI+的时代,它能重塑生产力、丰富我们的生活、工作,甚至人的精神世界。”——Jimmy
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-09
多智能体自主规划模式性能提升:五大精准策略详解
2025-09-09
nano banana 文生图模型有哪些具体的应用场景?
2025-09-09
Claude Code:极简架构 + 万字提示词 = 最强开发者智能体?
2025-09-09
测试用例还能自动跑?揭秘 AI 测试平台的新功能
2025-09-09
20个进入实用阶段的AI应用场景(设备工程业篇)
2025-09-09
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了!
2025-09-09
Qwen3新成员:阿里发布语音识别模型Qwen3-ASR,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
2025-09-08
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-06-15
2025-07-29
2025-08-19
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07
2025-09-06
2025-09-03
2025-09-03