机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则……
今天看啥  ›  专栏  ›  机器学习算法工程师

AI绘画社区新成员:快手开源可图文生图模型,支持双语,可写中文!

机器学习算法工程师  · 公众号  ·  · 2024-07-07 10:08

文章预览

点蓝色字关注 “机器学习算法工程师 ” 设为 星标 ,干货直达! 快手刚刚开源了它们自研的文生图模型可图( Kolors ), 可图支持中英文双语,生成效果接近Midjourney-v6 水平,而且可输入长达256 tokens的文本,最重要的可以渲染中文 。 代码: https://github.com/Kwai-Kolors/Kolors 模型: https://huggingface.co/Kwai-Kolors/Kolors 技术报告: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 在架构上,可图也是采用latent diffusion架构,基本沿用SDXL的模型设计,但是文本编码器采用了支持中英文双语的ChatGLM3-6B-Base: 而且文本提示词的输入长度支持 256 tokens,这比77 tokens的CLIP要长得多。 使用GLM也比采用CLIP有更强的文本理解能力: 和DALL-E 3一样,可图也对训练数据集中的图像作了重打标来生成文本详细描述,这里采用的打标模型是开源模型中效果相对较好的CogVLM-1.1-c ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览