今天看啥  ›  专栏  ›  AI科技评论

徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

AI科技评论  · 公众号  ·  · 2024-06-11 17:59
    

文章预览

不开源,文生视频模型仍是原子弹,而不是茶叶蛋。 作者丨王悦 编辑丨陈彩娴 在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能,还能以不同模态传递知识。 虽然具备了强大的多模态能力, 但 GPT-4o 目前只可以接受文本、音频和图像/视频数据的任意组合作为输入,并生成文本、音频和图像作为输出,其中尚未涉及视频生成这一部分。其实,这也侧面证明了,视频生成是难啃的一块骨头。 即使是主打视频生成能力的 Sora 在今年发布后也尚未对外开放使用,其真正的技术稳定性仍然存疑,而国内则是处在闷头追赶 Sora 的技术研发期,各文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览