AI绘画社区新成员：快手开源可图文生图模型，支持双语，可写中文！

机器学习算法工程师 · 公众号 · · 2024-07-07 10:08

文章预览

点蓝色字关注 “机器学习算法工程师 ” 设为星标，干货直达！快手刚刚开源了它们自研的文生图模型可图（ Kolors ），可图支持中英文双语，生成效果接近Midjourney-v6 水平，而且可输入长达256 tokens的文本，最重要的可以渲染中文。代码： https://github.com/Kwai-Kolors/Kolors 模型： https://huggingface.co/Kwai-Kolors/Kolors 技术报告： https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 在架构上，可图也是采用latent diffusion架构，基本沿用SDXL的模型设计，但是文本编码器采用了支持中英文双语的ChatGLM3-6B-Base：而且文本提示词的输入长度支持 256 tokens，这比77 tokens的CLIP要长得多。使用GLM也比采用CLIP有更强的文本理解能力：和DALL-E 3一样，可图也对训练数据集中的图像作了重打标来生成文本详细描述，这里采用的打标模型是开源模型中效果相对较好的CogVLM-1.1-c ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博