文章预览
关注公众号,发现CV技术之美 本篇分享论文 Tora: Trajectory-oriented Diffusion Transformer for Video Generation ,阿里提出轨迹可控的DiT视频生成模型Tora。 论文链接:https://arxiv.org/abs/2407.21705 项目链接:https://ali-videoai.github.io/tora_video/ 背景 视频生成模型最近取得了显著进展。例如,OpenAI 的 Sora 和国内的 Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能够满足各种分辨率、尺寸和时长的预测要求,同时生成的视频更符合物理世界的表现。 视频生成技术需要在一系列图像中创造一致的运动,这凸显了运动控制的重要性。当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现了轨迹可控的视频生成,但这些方法受限于传统 U-Net 去噪模型,大多只能生成 16 帧长度、固定低分辨率的视频,难以应对长距离轨迹。 此外,如果轨迹过于不规则或存在偏移
………………………………