文章预览
点蓝色字关注 “机器学习算法工程师 ” 设为 星标 ,干货直达! 快手刚刚开源了它们自研的文生图模型可图( Kolors ), 可图支持中英文双语,生成效果接近Midjourney-v6 水平,而且可输入长达256 tokens的文本,最重要的可以渲染中文 。 代码: https://github.com/Kwai-Kolors/Kolors 模型: https://huggingface.co/Kwai-Kolors/Kolors 技术报告: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 在架构上,可图也是采用latent diffusion架构,基本沿用SDXL的模型设计,但是文本编码器采用了支持中英文双语的ChatGLM3-6B-Base: 而且文本提示词的输入长度支持 256 tokens,这比77 tokens的CLIP要长得多。 使用GLM也比采用CLIP有更强的文本理解能力: 和DALL-E 3一样,可图也对训练数据集中的图像作了重打标来生成文本详细描述,这里采用的打标模型是开源模型中效果相对较好的CogVLM-1.1-c
………………………………