专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

量子位  · 公众号  · AI  · 2024-12-26 11:25
    

文章预览

VidTok团队 投稿 量子位 | 公众号 QbitAI Sora、Genie等模型会都用到的Tokenizer,微软下手了—— 开源了一套全能的Video Tokenizer,名为 VidTok 。 Sora等视频生成模型工作中,都会利用Tokenizer将原始的高维视频数据 (如图像和视频帧) 转换为更为紧凑的视觉Token,再以视觉Token为目标训练生成模型。 而最新的VidTok, 在连续和离散、不同压缩率等多种设定下 ,各项指标均显著优于SOTA模型。 以下是涵盖PSNR、SSIM、FVD、LPIPS指标的性能比较雷达图,面积越大表示性能越好。 从图中可以看出对于离散Tokenizer,VidTok显著优于英伟达Cosmos Tokenizer;对于连续Tokenizer,VidTok也比Open-Sora、CogVideoX有更高的性能。 这项研究由来自微软亚研院、上海交通大学、北京大学的研究人员共同完成。 目前,VidTok代码不仅开源了,还支持用户在自定义数据集上的微调,为研究者和开发者提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览