文章预览
人类如何高效、有效地获取图像一直是一个长期存在的问题。 典型的解决方案是根据给定的文本查询从现有数据库中进行 文本到图像检索 ;然而,有限的数据库通常缺乏创造力。 相比之下,最近在 文本到图像生成 方面的突破使得产生奇特且多样化的视觉内容成为可能,但它在合成知识密集型图像方面面临挑战。 在这项工作中,我们重新思考了文本到图像的生成和检索之间的关系,并在多模态大型语言模型 (MLLM) 的背景下提出了一个 统一 框架。 具体来说,我们首先探索 MLLM 的内在判别能力,并引入一种生成检索方法以免训练的方式执行检索。 随后,我们以自回归生成方式统一生成和检索,并提出一种自主决策模块,以在生成的图像和检索的图像之间选择最匹配的图像作为对文本查询的响应。 此外,我们构建了一个名为 TIGeR-Bench
………………………………