文章预览
©PaperWeekly 原创 · 作者 | 方佳瑞 单位 | 腾讯 研究方向 | 机器学习系统 上半年,我们见证了国内视频生成领域的迅猛发展。四月份,生数科技的 ViDu [1] 成功生成了 16 秒的电影级视频,不仅在视频号上引发了热烈反响,更揭开了中国 Sora 们崭露头角的序幕。而到了六月份,快手可灵 [2 ] 的发布,以其逼真的老铁风格,让人一时间真假难辨,更难能可贵的是它面向公众开放使用,使得迟迟未敢公测的 Sora,被戏称为“美国可灵”。 与此同时,阿里 EMO [3 ] 、智谱清影 [4 ] 等视频类产品也相继问世,共同推动了这一领域的繁荣发展。不能忽视的是,在传统的图片生成领域,SD3、Flux、Pixart 等等也持续发力,图片更加高清、细节更加逼真。 DiTs(Diffusion Transformers)作为文生图与文生视频的核心网络结构,是引领高清图像与长时一致性视频生成潮
………………………………