文章预览
大家好,我是飞哥! 之前不少人都以为大模型只能处理文本。但自从今年 2 月 16 日 OpenAI 在其官网发布了基于文字生成视频的模型 Sora 后,让所有人都认识到了即使对对于复杂的视频信息,大模型仍然是具备对其进行理解,以及进行 AIGC 创作的能力。 相对于 Sora 的一直的画大饼,其他家的产品发布和上市的节奏倒是要快的多。 在刚刚过去的 7 月 26 号智谱 上线了 CodeVideoX。该模型在业内首次开放了API接口,而且还开源了,相比其它家的画饼诚意十足。 源码地址: https://huggingface.co/spaces/THUDM/CogVideoX 我刚 刚用 CodeVideoX 接口 生成了几个视频 玩了一下,挺有意思 。 CodeVideoX 的内部实现是参考了 Sora 的算法,也是一个 Diffusion Transformer(DiT) 架构。 生成视频的原理是大致分为训练过程和生成过程。对于训练过程: 首先这一步中搜集大量的视频数据,并
………………………………