专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

阿里提出轨迹可控的 DiT 视频生成模型 Tora

我爱计算机视觉 · 公众号 · · 2024-08-04 12:08

文章预览

关注公众号，发现CV技术之美本篇分享论文 Tora: Trajectory-oriented Diffusion Transformer for Video Generation ，阿里提出轨迹可控的DiT视频生成模型Tora。论文链接：https://arxiv.org/abs/2407.21705 项目链接：https://ali-videoai.github.io/tora_video/ 背景视频生成模型最近取得了显著进展。例如，OpenAI 的 Sora 和国内的 Vidu、可灵等模型，通过利用 Diffusion Transformer 的扩展特性，不仅能够满足各种分辨率、尺寸和时长的预测要求，同时生成的视频更符合物理世界的表现。视频生成技术需要在一系列图像中创造一致的运动，这凸显了运动控制的重要性。当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现了轨迹可控的视频生成，但这些方法受限于传统 U-Net 去噪模型，大多只能生成 16 帧长度、固定低分辨率的视频，难以应对长距离轨迹。此外，如果轨迹过于不规则或存在偏移 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博