专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

MUMU：用文本、图像引导，多模态图像生成模型

AIGC开放社区 · 公众号 · · 2024-08-26 07:38

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！传统的文生图模型仅使用文本提示有时无法完美还原用户的提示词，例如，生成一个穿着红色披风的超级英雄在城市中飞翔的图像，传统的文本到图像生成模型可能会根据文本描述生成一个大致符合要求的图像，但可能无法准确呈现出用户想要的超级英雄的具体形象或披风的颜色和样式。为了提升图片的生成准确度，Sutter Hill的研究人员开发了可基于文本和图像引导的多模态图像生成模型MUMU。用户不仅可以使用文本提示，还能使用要生成目标图像的参考图，进一步提升生成准确率。论文地址：https://arxiv.org/abs/2406.18790 MUMU 的架构是基于 SDXL 的预训练卷积 UNet，通过替换 SDXL 的辅助CLIP 文本编码器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国中车 · 跨越山海的托举 | 中车出口马来西亚架车机产品完成交付验收

3 天前

中国中车 · 跨越山海的托举 | 中车出口马来西亚架车机产品完成交付验收

3 天前

云技术 · 2385万元，中铁云信创云大单

4 天前

产业园资料库 · 【视频】什么是园区运营？园区运营包含四大方面内容！

4 月前

即到哥 · 就这玩意网线对接头，劝兄弟们以后不要使用了，还不如我直接对接呢？

3 月前

界面新闻 · “地表最强机器人”Figure 02到底有多强？

3 月前