专栏名称: APPSO
让智能手机更好用的秘密。
今天看啥  ›  专栏  ›  APPSO

AI 版《猫和老鼠》刷爆外网!零剪辑自动生成,60 秒神作刷新 AI 视频天花板

APPSO  · 公众号  · app  · 2025-04-11 16:58
    

主要观点总结

本文主要介绍了一项关于生成式视频的新研究,该研究通过引入测试时训练(Test-Time Training,TTT)层,显著提升了扩散Transformer模型生成长视频的能力,能够生成长达一分钟、具有复杂多场景故事的连贯视频。文章还介绍了该研究在模型架构方面的创新,如隐藏状态作为神经网络的设计,以及如何通过收集《猫和老鼠》等材料的处理来训练模型等。

关键观点总结

关键观点1: 研究突破了视频生成的时长限制

以前视频生成的时长限制在几秒内,这项新研究成功将一次性生成时长推至1分钟,无需剪辑,并保持高连贯性。

关键观点2: TTT层的引入

测试时训练(TTT)层显著提升了扩散Transformer模型生成长视频的能力,使其能够捕捉复杂的时空依赖关系。

关键观点3: 模型架构的创新

研究中的模型架构创新包括将隐藏状态设计为神经网络,以及使用原生高分辨率视觉编码器MoonViT来处理图像数据。

关键观点4: 应用与未来展望

文章还探讨了该研究在实际应用中的潜力,如提高视觉处理能力、多模态扩展等方向的研究前景,并介绍了招聘信息。


文章预览

如果在短视频或者社交媒体上,刷到这条视频,我大概会津津有味看完,然后回想这是《猫和老鼠》哪一集。 哪一集都不是,这不仅完全是 AI 生成的,而且是一次性完成。 视频生成一直以来都有一道「天堑」:时长。市面上主流的生成式视频产品, 都是以秒为单位 ,能超过 10 秒就相当不错了,还暂且不谈这十秒里画面崩不崩。 这使得在实际使用中,还是需要剪辑、拼接那些几秒几秒的短镜头。这是目前的技术上限所致,没办法。 伯克利、斯坦福联合英伟达的最新研究,惊人地 把一次性生成时长推到了 1 分钟 ,无剪辑,却仍然保持逆天的一致性。 通过引入测试时训练(Test-Time Training, TTT)层,显著提升了扩散 Transformer 模型生成长视频的能力,使其能够生成长达一分钟、具有复杂多场景故事的连贯视频。 传统 RNN 层(如 Mamba、DeltaNet)的隐藏 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览