在线可玩！智谱开源图生视频模型，网友直呼Amazing！

量子位 · 公众号 · AI · 2024-09-19 13:20

主要观点总结

智谱AI开源了CogVideoX系列模型的最新成员CogVideoX-5B-I2V，包括图生视频模型CogVideoX-5B-I2V和标注模型cogvlm2-llama3-caption。该模型支持通过输入提示词生成视频，以及将视频内容转换成文本描述。虽然在实际使用中效果褒贬不一，但团队发布了一些成功作品展示了其潜力。此外，模型的相关研究论文也已公开，并介绍了模型的技术亮点，包括三维变分自编码器结构、专家Transformer和数据处理等。同时，团队近期也有多个更新，如SAT权重的推理和微调代码、自动化生成高质量视频的模型等。此次开源标志着CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。

关键观点总结

关键观点1: CogVideoX-5B-I2V模型开源

智谱AI最新开源了图生视频模型CogVideoX-5B-I2V，支持通过输入提示词生成视频。

关键观点2: 模型实际效果褒贬不一

用户在使用CogVideoX-5B-I2V模型后评价不一，有人觉得效果惊人，也有人觉得不够理想。

关键观点3: 模型的技术亮点

研究论文介绍了模型的技术亮点，包括三维变分自编码器结构、专家Transformer和数据处理等。

关键观点4: 团队近期的多个更新

团队近期有多个更新，包括SAT权重的推理和微调代码、自动化生成高质量视频的模型等。

关键观点5: CogVideoX系列模型的进展

此次CogVideoX-5B-I2V的开源标志着CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。

文章预览

叨乐发自凹非寺量子位 | 公众号 QbitAI 刚刚，智谱把清影背后的图生视频模型 CogVideoX-5B-I2V 给开源了！（在线可玩）一起开源的还有它的标注模型 cogvlm2-llama3-caption 。在实际应用中，CogVideoX-5B-I2V支持「一张图」+「提示词」生成视频。而cogvlm2-llama3-caption则是负责将视频内容转换成文本描述。不过用过的网友却对它的表现褒贬不一：有人在用过之后直呼Amazing。也有人试了半天，最后还是选择了CogVideoX之前的版本，还夸夸说：我最看好这个型号！所以到底效果如何，咱们来实测一波！实测CogVideoX-5B-I2V 测试开始~输入提示词：咖啡店员握住双手笑着对客人表示欢迎，说话时身体自然活动（依旧是老生常谈的“手部”问题）第二次实测，试了一下简短提示词：吗喽颠着二郎腿打电话（效果不理想，主体还是静态的没有动起来）第三次的提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【LogitsProcessors Zoo：NVIDIA开发的L-20241120131330

4 天前

量子位 · 国产4o大模型，秒懂国风李子柒

4 天前

宝玉xp · 回复@蝈蝈俊:没错//@蝈蝈俊:关键还是大任务拆成gpt可以做的-20241119112951

5 天前

黄建同学 · CjZ分享的 AI 工具使用经验↓#ai##程序员# ——我每天-20241119120400

5 天前

金色旋风 · 什么功能都有的超强大AI工具，关键是免费！

6 天前

金色旋风 · 什么功能都有的超强大AI工具，关键是免费！

6 天前

WAGO万可 · 技术升级 | WAGO I/O SYSTEM 750 XTR通过流动混合气体腐蚀测试极端环境应用优选

5 月前

人工智能那点事 · 文心大模型4.0 Turbo，正式发布！

4 月前

国金证券研究 · 机械满在朋|中信重工公司点评：收入短期承压，海外订货破新高

3 月前

学术志 · 50位上岸博士对考博的建议！

1 月前