AI 版《猫和老鼠》刷爆外网！零剪辑自动生成，60 秒神作刷新 AI 视频天花板

APPSO · 公众号 · app · 2025-04-11 16:58

主要观点总结

本文主要介绍了一项关于生成式视频的新研究，该研究通过引入测试时训练（Test-Time Training，TTT）层，显著提升了扩散Transformer模型生成长视频的能力，能够生成长达一分钟、具有复杂多场景故事的连贯视频。文章还介绍了该研究在模型架构方面的创新，如隐藏状态作为神经网络的设计，以及如何通过收集《猫和老鼠》等材料的处理来训练模型等。

关键观点总结

关键观点1: 研究突破了视频生成的时长限制

以前视频生成的时长限制在几秒内，这项新研究成功将一次性生成时长推至1分钟，无需剪辑，并保持高连贯性。

关键观点2: TTT层的引入

测试时训练（TTT）层显著提升了扩散Transformer模型生成长视频的能力，使其能够捕捉复杂的时空依赖关系。

关键观点3: 模型架构的创新

研究中的模型架构创新包括将隐藏状态设计为神经网络，以及使用原生高分辨率视觉编码器MoonViT来处理图像数据。

关键观点4: 应用与未来展望

文章还探讨了该研究在实际应用中的潜力，如提高视觉处理能力、多模态扩展等方向的研究前景，并介绍了招聘信息。

文章预览

如果在短视频或者社交媒体上，刷到这条视频，我大概会津津有味看完，然后回想这是《猫和老鼠》哪一集。哪一集都不是，这不仅完全是 AI 生成的，而且是一次性完成。视频生成一直以来都有一道「天堑」：时长。市面上主流的生成式视频产品，都是以秒为单位，能超过 10 秒就相当不错了，还暂且不谈这十秒里画面崩不崩。这使得在实际使用中，还是需要剪辑、拼接那些几秒几秒的短镜头。这是目前的技术上限所致，没办法。伯克利、斯坦福联合英伟达的最新研究，惊人地把一次性生成时长推到了 1 分钟，无剪辑，却仍然保持逆天的一致性。通过引入测试时训练（Test-Time Training， TTT）层，显著提升了扩散 Transformer 模型生成长视频的能力，使其能够生成长达一分钟、具有复杂多场景故事的连贯视频。传统 RNN 层（如 Mamba、DeltaNet）的隐藏 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博