视频生成的测试时Scaling时刻！清华开源Video-T1，无需重新训练让性能飙升

机器之心 · 公众号 · AI · 2025-03-26 11:31

主要观点总结

本文介绍了来自清华大学、腾讯的研究团队在视频生成领域的最新研究成果。他们首次对视频生成的Test-Time Scaling进行探索，并提出高效的Tree-of-Frames方法拓展这一Scaling范式，以提高视频生成性能。研究内容包括视频生成Test-Time Scaling的实验结果，Tree-of-Frames算法的介绍，以及其在不同视频生成模型上的应用效果。此外，文章还提到了研究团队进行的大量Test-Time Scaling实验，以及使用不同的VLM作为Verifier对视频生成质量在多种维度上的提升效果。

关键观点总结

关键观点1: 研究团队首次对视频生成的Test-Time Scaling进行探索，表明视频生成也能进行Test-Time Scaling以提升性能。

这是研究的核心内容，通过Test-Time Scaling，可以在不重新训练或显著扩大模型规模的情况下，提高视频生成质量。

关键观点2: 研究团队提出高效的Tree-of-Frames方法，能够在取得相同效果的情况下显著提高搜索效率，降低视频模型的推理计算需求。

这是研究团队的主要创新点，Tree-of-Frames方法通过自适应扩展和修剪视频分支，在计算成本与生成质量间实现动态平衡。

关键观点3: 研究团队通过大量实验验证了Test-Time Scaling方法和Tree-of-Frames算法的有效性。

这些实验包括不同Test-Time Scaling方法和不同样本数量对应的Number of Function Evaluations (NFE) 及对应的表现的比较，以及Tree-of-Frames 方法在不同视频生成模型上的应用效果。

文章预览

视频作为包含大量时空信息和语义的媒介，对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向，其性能目前主要通过增大基础模型的参数量和预训练数据实现提升，更大的模型是更好表现的基础，但同时也意味着更苛刻的计算资源需求。受到 Test-Time Scaling 在 LLM 中的应用启发，来自清华大学、腾讯的研究团队首次对视频生成的 Test-Time Scaling 进行探索，表明了视频生成也能够进行 Test-Time Scaling 以提升性能，并提出高效的 Tree-of-Frames 方法拓展这一 Scaling 范式。目前，这项工作的代码已经开源，感兴趣的小伙伴可以开 Issue 提问，也欢迎共同探索视频和多模态生成。论文标题：Video-T1: Test-Time Scaling for Video Generation 论文地址：https://arxiv.org/pdf/2503.18942 Github 仓库: https://github.com/liuff19/Video-T1 项目主页: https://liuff19.github.io/ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博