文章预览
打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 随着可灵AI、RunWay Gen3、Vidu等文生视频模型的出现,文生视频在国内外变得炙手可热! 各种社交媒体等平台上面都可以看到它们的身影,各种文生视频的培训班更是层出不穷!国内一直被可灵AI所垄断,尽管即梦AI的出现有了一定的缓解,但是从可灵AI的排队人数中就可以知道差异所在。 本文介绍了智谱AI新推出的CogVideoX,这是一种大规模的扩散变换模型,旨在基于文本提示生成视频。为了有效地对视频数据进行建模,作者建议利用3D变分自编码器(VAE)沿空间和时间维度压缩视频。 为了改善文本视频对齐,作者提出了一种具有专家自适应LayerNorm的专家变换器,以促进两种模式之间的深度融合。通过采用渐进式训练技术,CogVideoX擅长制作连贯、长时间的视频,其特征
………………………………