专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

量子位  · 公众号  · AI  · 2024-09-19 13:20

主要观点总结

智谱AI开源了CogVideoX系列模型的最新成员CogVideoX-5B-I2V,包括图生视频模型CogVideoX-5B-I2V和标注模型cogvlm2-llama3-caption。该模型支持通过输入提示词生成视频,以及将视频内容转换成文本描述。虽然在实际使用中效果褒贬不一,但团队发布了一些成功作品展示了其潜力。此外,模型的相关研究论文也已公开,并介绍了模型的技术亮点,包括三维变分自编码器结构、专家Transformer和数据处理等。同时,团队近期也有多个更新,如SAT权重的推理和微调代码、自动化生成高质量视频的模型等。此次开源标志着CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。

关键观点总结

关键观点1: CogVideoX-5B-I2V模型开源

智谱AI最新开源了图生视频模型CogVideoX-5B-I2V,支持通过输入提示词生成视频。

关键观点2: 模型实际效果褒贬不一

用户在使用CogVideoX-5B-I2V模型后评价不一,有人觉得效果惊人,也有人觉得不够理想。

关键观点3: 模型的技术亮点

研究论文介绍了模型的技术亮点,包括三维变分自编码器结构、专家Transformer和数据处理等。

关键观点4: 团队近期的多个更新

团队近期有多个更新,包括SAT权重的推理和微调代码、自动化生成高质量视频的模型等。

关键观点5: CogVideoX系列模型的进展

此次CogVideoX-5B-I2V的开源标志着CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。


文章预览

叨乐 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,智谱把 清影 背后的 图生视频 模型 CogVideoX-5B-I2V 给开源了! (在线可玩) 一起开源的还有它的标注模型 cogvlm2-llama3-caption 。 在实际应用中,CogVideoX-5B-I2V支持 「一张图」+「提示词」 生成视频。 而cogvlm2-llama3-caption则是负责将 视频内容转换成文本描述 。 不过用过的网友却对它的表现褒贬不一: 有人在用过之后直呼Amazing。 也有人试了半天,最后还是选择了CogVideoX之前的版本,还夸夸说:我最看好这个型号! 所以到底效果如何,咱们来实测一波! 实测CogVideoX-5B-I2V 测试开始~输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动 (依旧是老生常谈的“手部”问题) 第二次实测,试了一下简短提示词:吗喽颠着二郎腿打电话 (效果不理想,主体还是静态的没有动起来) 第三次的提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览