文章预览
点击下方 卡片 ,关注“ AI生成未来 ” >>后台回复“GAI”,免费获取AI行业报告和资料! 作者:Jian-Yu Jiang-Lin等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2407.17911 git链接:https://alberthkyhky.github.io/ReCorD/ 亮点直击 : 引入了一种新颖的推理框架,将潜在扩散模型(LDM)与视觉语言模型(VLM)相结合,以克服生成逼真的人与物体互动(HOI)时面临的挑战,缓解了以往方法中的问题,例如大语言模型(LLM)对简单文本提示的过度分析以及LDM中的训练数据偏差。 为了提升人物形象描绘的准确性,在LDM中设计了一个校正机制,用于动态图像调整,使得对生成图像中人类互动的精确控制和精细化成为可能,从而显著提高了描绘的准确性。 大量实验表明,本文的免训练方法ReCorD在创建引人入胜且逼真的HOI场景方面表现出色,优于其它SOTA方法
………………………………