微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

量子位 · 公众号 · AI · 2024-12-26 11:25

文章预览

VidTok团队投稿量子位 | 公众号 QbitAI Sora、Genie等模型会都用到的Tokenizer，微软下手了—— 开源了一套全能的Video Tokenizer，名为 VidTok 。 Sora等视频生成模型工作中，都会利用Tokenizer将原始的高维视频数据（如图像和视频帧）转换为更为紧凑的视觉Token，再以视觉Token为目标训练生成模型。而最新的VidTok，在连续和离散、不同压缩率等多种设定下，各项指标均显著优于SOTA模型。以下是涵盖PSNR、SSIM、FVD、LPIPS指标的性能比较雷达图，面积越大表示性能越好。从图中可以看出对于离散Tokenizer，VidTok显著优于英伟达Cosmos Tokenizer；对于连续Tokenizer，VidTok也比Open-Sora、CogVideoX有更高的性能。这项研究由来自微软亚研院、上海交通大学、北京大学的研究人员共同完成。目前，VidTok代码不仅开源了，还支持用户在自定义数据集上的微调，为研究者和开发者提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博