今天看啥  ›  专栏  ›  ADFeed

Loong:字节跳动生成分钟级连贯长视频的自回归语言模型

ADFeed  · 公众号  ·  · 2024-10-11 11:15
    

文章预览

Loong: Generating Minute-level Long Videos with Autoregressive Language Models 介绍: https://epiphqny.github.io/Loong-video/ 论文: https://arxiv.org/abs/2410.02757 Loong  是一种基于自回归大型语言模型(LLM)的视频生成器,由香港大学和字节跳动的研究人员共同开发。 该模型能够生成长达一分钟的连贯视频,这些视频不仅具有一致的外观和复杂的动作动态,还包含自然的过渡场景。 Loong通过将文本和视频标记建模为统一序列,并采用自回归LLM进行训练,从而突破了以往模型仅能生成数秒长视频的限制。 Loong 的特点在于其创新的训练策略和推理机制。为了解决长视频训练中的损失不平衡问题,研究者们提出了一种渐进式短至长训练方法,并引入了损失重新加权方案。此外,为了降低推理过程中的错误累积,Loong采用了视频令牌重新编码和采样策略,进一步提升了长视频生成的质量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览