微信扫码
添加专属顾问
我要投稿
在多次社区的Comfyui共学中发现, comfyui工作流的门槛确实过高. 让很多人理解“潜空间”, “Vae”, “LoRA”, “controlnet”等一系列概念非常困难, 更别说基于理解做一个工作流了.
这次英伟达整了个花活, 让大家看到了打破这个门槛的可能性: 通过画图提示词, 自动生成匹配的comfyUI工作流!
英伟达将其命名为ComfyGen (comfy生成器)! 当然目前仅支持文生图模型.
在英伟达发布的内容中, 他们称: “ComfyGen可以生成高质量的图并泛化到其他领域 (如下图). ”
并且他们很自豪的宣称:“下图这么优秀的图, 完全是comfyGen基于SDXL规模的模型画的, 还没有用flux呢!”
当然, 作为学术性研究论文, 肯定不会很草率的下结论.
英伟达团队做了对比测试:
下图中分别为
1) SDXL原生
2) 两个微调模型 (用过的同学会很熟悉
3) 两个人搭的工作流
4) 两个不同的comfyGen制作的图 (后文原理部分中会说明这两者的区别)
可以看到效果基本一致, 甚至确实更符合人类对提示词的判断和理解.
同时他们还做了和C站上人类写的提示词作对比:
很显然, ComfyGen的效果略胜一筹.
不过由于项目未开源, 无法体验实际效果. 但是如果真的效果如英伟达发布所说, 那是相当惊艳了.
ComfyGen 基于大型语言模型(LLM),为用户输入的特定提示词自动定制和优化生成Comfyui工作流。
工作流中会组合多个专门的组件,如改进的输入处理、精细的解码器和超分辨率模块,显著提高生成图像的质量和细节。
ComfyGen 的核心在于其能够根据用户的具体需求,选择最适合的工作流组件,从而实现更高质量和更精确对齐的图像输出。
这里英伟达制作了一个表格, 表格里记录了工作流画图的分类, 并基于美学和人类偏好的预测给他们的结果打分. 让他们让LLM选择最能匹配新提示词并且得分最高的工作流.
训练时, 同样把表格中的得分, 提示词和工作流作为训练内容. 推理时, 依旧让LLM通过提示词和高得分来预测一个最合适的工作流.
这份研究为很多agent的开发带来了新的思路, 不仅局限于comfyui, 同时对LLM本身的工作流的自动生成也将产生深远的影响.
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-31
全网首发!一张通往“人类禁区”的船票,手把手教你把 AI 送进 Moltbook
2026-01-30
ESLint创始人揭秘:用AI角色扮演编程,效率飙升
2026-01-30
谷歌官方推出!10 个 Gem 提示词,附详细Gem自律助手创建流程
2026-01-30
Skill手搓“自动化PPT神器”,不写一行代码
2026-01-29
简单的AGENTS.md竟然完胜复杂Skills,Vercel实测
2026-01-25
Claude Code 最佳实践:50 个实用技巧
2026-01-23
迈向资产化的提示词/Skill:从个人技巧到组织能力
2026-01-22
Anthropic 黑客松冠军的"核武库"流出:这才是 Claude Code 的正确打开方式
2025-11-14
2025-12-03
2025-12-26
2025-12-17
2026-01-18
2025-11-27
2025-11-09
2026-01-04
2025-11-30
2026-01-07
2026-01-21
2026-01-16
2026-01-13
2026-01-05
2025-12-22
2025-12-14
2025-12-03
2025-12-02