专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe 新研究

量子位  · 公众号  · AI  · 2024-12-10 15:01
    

主要观点总结

文章介绍了Adobe与MIT共同推出的自回归实时视频生成技术——CausVid。该技术采用自回归生成模型,能够实时播放生成视频,解决了传统视频生成模型的延迟问题。通过蒸馏预训练的双向扩散模型(DiT)构建自回归生成模型,并采用分布匹配蒸馏(DMD)技术实现显著加速。同时,研究团队还解决了自回归模型的误差累积问题,并生成了更高质量的视频内容。此外,CausVid还支持多种应用,如图片动画化、实时视频风格转换和交互式剧情生成等。

关键观点总结

关键观点1: 自回归实时视频生成技术CausVid的推出

解决了传统视频生成模型的延迟问题,实现实时播放生成视频

关键观点2: 采用蒸馏预训练的双向扩散模型(DiT)

构建自回归生成模型,提高生成速度和质量

关键观点3: 采用分布匹配蒸馏(DMD)技术

将生成步骤从50步缩减到仅需4步,实现显著加速

关键观点4: 解决自回归模型的误差累积问题

通过非对称蒸馏策略,提升了生成视频的准确性

关键观点5: CausVid支持多种应用

如图片动画化、实时视频风格转换和交互式剧情生成等


文章预览

CausVid团队 投稿 量子位 | 公众号 QbitAI AI生成视频, 边生成边 实时播放 ,再不用等了! Adobe与MIT联手推出自回归实时视频生成技术—— CausVid 。 思路 就像从下载整部电影到直接观看流媒体的转变 ,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。 如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段10秒的视频,往往需要等待好几分钟才可以开始观看。 研究团队表示,这一延迟的根本原因在于: 传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。 这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。 为此,他们提出了一种全新的解决方案,通过 蒸馏预训练的双向扩散模型 (DiT) , 构建自回归生成模型 。 实验中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览