专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?

AIWalker  · 公众号  ·  · 2024-07-21 21:58

文章预览

作者: Xingyu Fu 等     解读: AI生成未来    论文链接:https://arxiv.org/pdf/2406.07546 项目链接:https://zeyofu.github.io/CommonsenseT2I/ 亮点直击 1.本文提出了一个高质量的专家标注基准,用于评估文本到图像生成中所需的常识推理能力。 2.本文提出了一种使用多模态LLMs进行自动评估的流水线,并展示它与人类评估高度相关。 3.本文在Commonsense-T2I上对多种T2I模型进行了基准测试,并显示目前所有模型与人类水平的智能之间仍然存在巨大差距,并提供了详细的分析。 本文提出了一个新颖的任务和基准,用于评估文本到图像(T2I)生成模型在产生符合现实生活常识的图像方面的能力,称为Commonsense-T2I。 给定两个包含相同动作词汇但略有不同的对抗性文本提示,例如“一个没有电的灯泡” vs. “一个有电的灯泡”,本文评估T2I模型是否能进行视觉常识推理,例如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览