今天看啥  ›  专栏  ›  硅星人Pro

又是文生视频模型扎堆发布的一周:阿里智谱面壁集体卷开源

硅星人Pro  · 公众号  · 科技媒体  · 2024-08-09 10:02

主要观点总结

本文主要介绍了近期AI视频生成领域的动态,包括阿里、智谱和面壁的技术进展和新产品。三家公司推出了不同的AI视频生成工具,并展示了各自的技术特点和实际效果。

关键观点总结

关键观点1: 阿里推出轨迹可控的Tora

阿里推出了可以精准控制视频内容的Tora,基于轨迹导向的扩散变换器技术,能够实现视频轨迹的精确控制,生成高质量、高分辨率且符合物理世界动态的视频。同时提供了官方实例展示其效果。

关键观点2: 智谱开源CogVideoX模型

智谱开源了CogVideoX模型,该模型能够根据文本提示生成视频内容,并展示了官方案例。该模型具有支持英语提示、生成高分辨率视频的特点。

关键观点3: 面壁推出小钢炮2.6

面壁上线了新版本的“小钢炮”MiniCPM-V 2.6,该版本具备实时视频理解、多图联合理解能力。它能在无音频的情况下,通过视频OCR功能识别出视频画面里密集的文字,并给出不同视频段落的详细描述。

关键观点4: 三家公司的技术和态度

阿里、智谱和面壁在AI视频生成领域取得了重要进展,并始终保持开源态度。这不仅加速了AI技术的创新和发展,也有助于AI技术更加均衡、安全地在全社会推广。


文章预览

最近真的被AI视频生成卷疲了,国内外的产品同质化严重。如果现在又出了一个新的AI生成视频的产品,估计大家放反应也都和我一样吧👉“哦,还不都差不多呗,不是文生视频,就是图生视频。” 大家似乎也对AI视频渐渐的失去了兴趣,目前AI领域的各大研发团队也是挠破了脑袋想要搞些新突破。最近阿里、智谱和面壁一起发力:阿里推出轨迹可控的 Tora ,智谱连夜开源 CogVideoX ;面壁推出 小钢炮2.6 ,直接对标GPT-4V。短短一周之内各家也是相继开启AI视内卷新方向! 1   阿里推出Tora:视频轨迹可控  前几天阿里刚刚推出了可以精准控制视频内容的Tora,并且基于轨迹导向的扩散变换器(DiT)技术,Tora可以将文本、视觉和轨迹条件融合,且允许精确控制具有不同持续时间、宽高比和分辨率的视频内容,从而生成高质量且符合物理世界动态的视频内容。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览