ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜！ReCorD:交互场景生成最新SOTA！

AI生成未来 · 公众号 · · 2024-08-01 00:00

文章预览

点击下方卡片，关注“ AI生成未来 ” >>后台回复“GAI”，免费获取AI行业报告和资料！作者：Jian-Yu Jiang-Lin等解读：AI生成未来文章链接：https://arxiv.org/pdf/2407.17911 git链接：https://alberthkyhky.github.io/ReCorD/ 亮点直击：引入了一种新颖的推理框架，将潜在扩散模型（LDM）与视觉语言模型（VLM）相结合，以克服生成逼真的人与物体互动（HOI）时面临的挑战，缓解了以往方法中的问题，例如大语言模型（LLM）对简单文本提示的过度分析以及LDM中的训练数据偏差。为了提升人物形象描绘的准确性，在LDM中设计了一个校正机制，用于动态图像调整，使得对生成图像中人类互动的精确控制和精细化成为可能，从而显著提高了描绘的准确性。大量实验表明，本文的免训练方法ReCorD在创建引人入胜且逼真的HOI场景方面表现出色，优于其它SOTA方法 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博