专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

仅用文字描述要生成的图像通常很困难,这篇关于图像生成的多模态输入-20240703191426

黄建同学  · 微博  · AI  · 2024-07-03 19:14
2024-07-03 19:14 本条微博链接 仅用文字描述要生成的图像通常很困难,这篇关于图像生成的多模态输入的论文就是为了解决这个问题,提出了一个使用交错文本/图像提示来生成图像的模型MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data(通过多模态图像生成提高文生图的技术)#ai##ai探索计划# 关键点:1. 总体架构并不复杂。vlm 基本上是将视觉编码器绑定到 llm。也可以将扩散模型(或你喜欢的其他图像解码器)绑定到最后。2. 真正的技 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照