专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

超越CogVideoX-5B、Pika、Kling 和 Gen-3!苹果再发新作,视频生成大模型全面报告

极市平台  · 公众号  ·  · 2024-12-23 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨AI生成未来 来源丨AI生成未来 编辑丨极市平台 极市导读   STIV模型的核心创新在于使用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。实验结果显示,STIV在多个视频生成任务中取得了优异的性能,超越了包括CogVideoX-5B、Pika、Kling和Gen-3在内的一系列领先的开源和闭源模型。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 论文链接: https://arxiv.org/abs/2412.07730 HuggingFace链接: https://huggingface.co/papers/2412.07730 亮点直击 提出了 STIV ,一个能够同时执行文本到视频(T2V)和文本-图像到视频(TI2V)任务的单一模型。其核心思想是用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。 进行了 T2I、T2V 和 TI2V 的系统研究, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览