文章预览
本文介绍了来自清华大学智能产业研究院的研究团队提出的基于 预训练文生图扩散模型 结合 多任务学习 方法的生成Visual Anagram的方法,此方法无需训练/微调现有模型,并解决了已有方法存在的概念分离与主导等问题,在此生成任务上取得新的最佳性能。 论文题目: Diffusion-based Visual Anagram as Multi-task Learning 论文链接: https://arxiv.org/abs/2412.02693 代码链接: https://github.com/Pixtella/Anagram-MTL 一、研究背景与动机 视觉回文(Visual Anagram) 是一类特殊的图像,在 不同角度 下,他们看起来所 呈现的内容可能完全不同 ,这类视幻觉在很久以前就得到了艺术家、哲学家以及科学家的关注与研究。 早期由艺术家手工创作的Visual Anagram代表包括1892刊载于德国幽默杂志 Fliegende Blät
ter 的素描画 Kaninchen und Ente ,这幅画正着看像一只嘴巴朝左的 鸭子 ,但如果将其旋转
………………………………