专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

阿里提出轨迹可控的 DiT 视频生成模型 Tora

我爱计算机视觉  · 公众号  ·  · 2024-08-04 12:08
    

文章预览

关注公众号,发现CV技术之美 本篇分享论文 Tora: Trajectory-oriented Diffusion Transformer for Video Generation ,阿里提出轨迹可控的DiT视频生成模型Tora。 论文链接:https://arxiv.org/abs/2407.21705 项目链接:https://ali-videoai.github.io/tora_video/ 背景 视频生成模型最近取得了显著进展。例如,OpenAI 的 Sora 和国内的 Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能够满足各种分辨率、尺寸和时长的预测要求,同时生成的视频更符合物理世界的表现。 视频生成技术需要在一系列图像中创造一致的运动,这凸显了运动控制的重要性。当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现了轨迹可控的视频生成,但这些方法受限于传统 U-Net 去噪模型,大多只能生成 16 帧长度、固定低分辨率的视频,难以应对长距离轨迹。 此外,如果轨迹过于不规则或存在偏移 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览