视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

量子位 · 公众号 · AI · 2024-11-17 12:52

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI Don’t look twice！把连续相同的图像块合并成一个token，就能让Transformer的视频生成速度大幅提升。卡内基梅隆大学提出了视频生成模型加速方法 Run-Length Tokenization （RLT），被NeurIPS 2024选为Spotlight论文。在精度几乎没有损失的前提下，RLT可以让模型训练和推理速度双双提升。一般情况下，利用RLT，Transformer视频模型的训练时间可缩短30%，推理阶段提速率提升更是可达67% 。对于高帧率和长视频，RLT的效果更加明显，30fps视频的训练速度可提升1倍，长视频训练token减少80% 。相比于传统的剪枝方法，RLT能用更小的精度损失实现更好的加速效果。有人想到了电视剧中的评论，认为这项研究找到了在压缩空间中进行搜索的方法。 DeepMind科学家Sander Dieleman则评价称，这项研究是一种“非主流” （Off-the-grid）的创 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博