文章预览
点击下方 卡片 ,关注“ AI生成未来 ” >>后台回复“GAI”,免费获取AI行业报告和资料! 作者:Zhiyu Tan等 解读:AI生成未来 论文链接:https://arxiv.org/pdf/2408.02629 项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/ git链接:https://github.com/SAIS-FUXI/VidGen 亮点直击 引入了一个专门用于训练文本到视频模型的高质量视频数据集。 提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。 发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。 视频-文本对的质量从根本上决定了文本到视频模型的上限。目前,用于训练这些模型的数据集存在显著缺陷,包括低时间一致性、低质量的字幕、低质量的视频以及数据分布不平衡。现行的视频策展过程依赖于图像模型进行标记和基于规则的人工策展,导致计算
………………………………