文章预览
MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior 论文: https://www.arxiv.org/abs/2409.10090 MotionCom 是一种先进的图像合成技术,由阿里巴巴联合南洋理工的研究人员共同开发。它能够自动且无缝地将目标对象融入新的背景场景中,并保证合成结果具有动态的连贯性。 该系统创新性地结合了大型视觉语言模型(LVLM)进行智能规划和视频扩散先验技术,以实现运动感知的图像合成。它通过多模态链式思考(CoT)提示自动规划前景对象的放置,同时利用MotionPaint技术从预训练的视频扩散模型中提取运动信息,确保前景对象不仅能够自然地融入背景,还能展现出逼真的运动和交互效果。 区别于传统的图像合成方法,MotionCom 无需手动规划对象的放置位置,也不需要额外的训练或优化步骤。它通过自动化的流程,不仅提升了合成图像的效率,
………………………………