专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

阿里发布轨迹可控的DiT视频生成模型—Tora

AIGC开放社区  · 公众号  ·  · 2024-08-10 08:21
    

文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 视频生成模型最近取得了显著进展,例如,OpenAI 的 Sora 和国内的Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能够满足各种分辨率、尺寸和时长的预测要求,同时生成的视频更符合物理世界的表现。视频生成技术需要在一系列图像中创造一致的运动,这凸显了运动控制的重要性。 当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现了轨迹可控的视频生成,但这些方法受限于传统 U-Net 去噪模型,大多只能生成 16 帧长度、固定低分辨率的视频,难以应对长距离轨迹。此外,如果轨迹过于不规则或存在偏移过大等情况,这些方法十分容易出现运动模糊、外观失真和不自然的运动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览