专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

无需训练!多提示视频生成最新SOTA!港中文&腾讯等发布DiTCtrl:基于MM-DiT架构

极市平台  · 公众号  ·  · 2024-12-29 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨AI生成未来 来源丨AI生成未来 编辑丨极市平台 极市导读   腾讯等机构提出的DiTCtrl模型,这是一个基于MM-DiT架构的多提示视频生成方法,首次实现了无需额外训练的动态条件选择。DiTCtrl通过引入KV共享机制和隐混合策略,确保了不同提示之间的平滑过渡和一致的对象运动,展现出在视频生成任务中的优越性能,同时提出了MPVBench作为新的评估框架。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 文章链接: https://arxiv.org/pdf/2412.18597 项目链接: https://github.com/TencentARC/DiTCtrl 亮点直击 DiTCtrl ,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。 首度分析了MM-DiT的注意力机制,发现其3D全注意 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览