无需训练！多提示视频生成最新SOTA！港中文&腾讯等发布DiTCtrl：基于MM-DiT架构

人工智能前沿讲习 · 公众号 · · 2024-12-31 18:00

文章预览

点击下方卡片，关注“ AI生成未来 ” 后台回复“GAI”，免费获取最新AI相关行业报告和资料！作者：Minghong Cai 等解读：AI生成未来文章链接：https://arxiv.org/pdf/2412.18597 项目链接：https://github.com/TencentARC/DiTCtrl 亮点直击 DiTCtrl ，这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略，使得不同提示之间能够无缝过渡，且无需额外的训练。首度分析了MM-DiT的注意力机制，发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为，从而实现了基于mask的精确语义控制，使得不同提示之间的生成更加一致。推出了MPVBench，这是一个专为多提示视频生成设计的新基准，具有多种过渡类型和专门的评估指标，用于多提示视频的评估。-大量实验表明，本文的方法在多提示视频生成任 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

知产力 · 专利权属纠纷审判思路的新发展

昨天

知产力 · 专利权属纠纷审判思路的新发展

昨天

华夏能源网 · 专利硝烟又起！晶科能源起诉隆基绿能专利侵权

昨天

红秀GRAZIA · 新年新气象！先安排上开运美甲~

昨天

红秀GRAZIA · 新年新气象！先安排上开运美甲~

昨天

爱平度 · 平度这位女企业家，上央视啦……

2 天前

WWD 国际时尚特讯 · 美妆观察｜2024年的经验沉淀将带来哪些未来可能？

2 天前

清晨朗读会 · 清晨朗读2957：Get Good at Finishing Things

6 月前

科学软件交流组 · 爆发！流体仿真黄金时代，深度学习介入流体力学打破科研禁忌，迎来历史性进步！

5 月前

蔻享学术 · 【直播】【九章论坛】精密测量院倪四道院士：崎岖不平的地球内部界面

3 月前