我要投稿

Kolors：快手开源的文本到图像生成模型

发布日期：2024-07-17 16:37:36 浏览次数： 4261

作者：小兵的AI视界

微信搜一搜，关注“小兵的AI视界”

引言

在人工智能的浪潮中，文本到图像生成技术以其独特的魅力和广泛的应用前景，成为研究者和开发者关注的焦点。近日，快手公司开源了其自研的第三代文本到图像生成模型——Kolors，这一事件在AI领域引起了广泛关注。本文将深入探讨Kolors模型的技术特点、评估测试以及实际代码实践，为读者提供一份详尽的技术指导。

Kolors模型简介

Kolor是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型。它在数十亿中英文图文对数据集上进行训练，不仅在视觉质量上表现出色，而且在语义准确性和文本渲染方面展现了显著的优势。Kolors模型特别注重中文内容的理解和生成，能够捕捉和表达具有东方韵味的人物、景观和服饰。

模型基础

多语言支持：Kolors模型支持中英文输入，特别在中文内容的理解和生成上表现出色。
海量数据训练：基于数十亿图文对数据集的训练，确保了模型的泛化能力和准确性。

模型特点

Kolors模型的亮点在于其对中文内容的深度理解和高质量的图像生成能力。

1、中文内容的深度理解

Kolors在中文理解和还原上投入了大量工作，能够生成富有中国特色的自然景观和文化象征意义的场景。

2、高质量的图像生成

写实人像：模型能够生成具有东方面孔特征的人像，贴合国人审美。

艺术风格：支持多种艺术风格的图像生成，如水墨画、雕塑艺术等。

复杂场景：能够处理复杂的场景生成，如古代市井、现代都市等。

评估测试

官方团队构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors 具有非常有竞争力的表现，达到业界领先水平。构建了一个包含14种垂类，12个挑战项，总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上，同时收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。

1、人类评估

官方邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。

模型

整体满意度平均分

画面质量平均分

图文相关性平均分

Adobe-Firefly

3.03

3.46

3.84

Stable Diffusion 3

3.26

3.50

4.20

DALL-E 3

3.32

3.54

4.22

Midjourney-v5

3.32

3.68

4.02

Playground-v2.5

3.37

3.73

4.04

Midjourney-v6

3.58

3.92

4.18

Kolors

3.59

3.99

4.17

2、机器评估

官方采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。以 KolorsPrompts 作为基础评估数据集，计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标，这与人工评估的指标一致。

模型

MPS综合得分

Adobe-Firefly

8.5

Stable Diffusion 3

8.9

DALL-E 3

9.0

Midjourney-v5

9.4

Playground-v2.5

9.8

Midjourney-v6

10.2

Kolors

10.3

代码实践

Kolors模型的开源为开发者提供了丰富的实践机会。以下是一些基本的代码实践步骤：

1、环境要求

安装必要的依赖库，如Python、PyTorch等。

python 3.8及以上版本

pytorch 1.13.1及以上版本

transformers 4.26.1及以上版本

建议使用CUDA 11.7及以上

2、仓库克隆及依赖安装

1）安装git-lfs

安装git-lfs，用于使用git下载大文件

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bashsudo apt-get install git-lfsgit lfs install

2）下载Kolors仓库源代码

git clone https://github.com/Kwai-Kolors/Kolors

3）配置python环境

conda create --name kolors python=3.8conda activate kolors

4）安装依赖

cd Kolorspip install -r requirements.txtpython3 setup.py install

3、模型下载

从Hugging Face平台或modelscope下载Kolors模型的预训练权重。

modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors

也可以代码下载

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('Kwai-Kolors/Kolors')

4、模型推理

使用提供的推理代码，根据用户输入的文本描述生成图像。

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"# The image will be saved to "scripts/outputs/sample_text.jpg"

5、启动Web demo

python3 scripts/sampleui.py

结语

Kolors模型的开源，不仅为AI领域的研究者和开发者提供了新的工具和数据，也为中文内容的图像生成带来了新的可能性。随着技术的不断进步和社区的共同努力，我们有理由相信，Kolors将在文本到图像生成领域发挥更大的作用，推动人工智能技术的进一步发展。

参考资料

仓库地址：https://github.com/Kwai-Kolors/Kolors

模型地址（huggingface）：https://huggingface.co/Kwai-Kolors/Kolors)

模型地址（modelscope）：https://www.modelscope.cn/models/Kwai-Kolors/Kolors

点亮“关注”，设为“星标”，精彩不迷路！我们携手探索AI的无限可能，精彩内容，持续为您更新！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

DiffusionGemma: 文本生成速度提升 4 倍

2026-06-22

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-20

GLM-5.2本地部署：744B参数模型如何在Mac上跑

2026-06-20

Hermes Agent v0.17发布：AI助手开始扩展触角

2026-06-18

开源中医 Skill：把倪海厦课程变成可检索知识库

2026-06-18

Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行

2026-06-17

GLM-5.2 技术解读：智谱百万上下文的新一代旗舰模型

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw