今天看啥  ›  专栏  ›  人工智能前沿讲习

无需训练!多提示视频生成最新SOTA!港中文&腾讯等发布DiTCtrl:基于MM-DiT架构

人工智能前沿讲习  · 公众号  ·  · 2024-12-31 18:00
    

文章预览

点击下方 卡片 ,关注“ AI生成未来 ” 后台回复“GAI”,免费获取最新AI相关行业报告和资料! 作者:Minghong Cai 等 解读:AI生成未来  文章链接:https://arxiv.org/pdf/2412.18597 项目链接:https://github.com/TencentARC/DiTCtrl 亮点直击 DiTCtrl ,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。 首度分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之间的生成更加一致。 推出了MPVBench,这是一个专为多提示视频生成设计的新基准,具有多种过渡类型和专门的评估指标,用于多提示视频的评估。-大量实验表明,本文的方法在多提示视频生成任 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览