专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
目录
相关文章推荐
今天看啥  ›  专栏  ›  夕小瑶科技说

南京大学发布百万规模文本生成视频数据集OpenVid-1M

夕小瑶科技说  · 公众号  ·  · 2024-07-29 20:59

文章预览

夕小瑶科技说 原创 作者 | Zicy “巧妇难为无米之炊”,文生视频作为一个在AI中较为年轻的研究方向,由许多至关重要的问题还尚未解决,其中之一就是缺乏大规模高质量数据集,因此,最近南京大学提出了一个名为OpenVid-1M的大规模高质量数据集,它包含了100万个带有字幕的高质量视频片段。 除了数据集,他们还提出了一种新颖的多模态视频扩散Transformer(MVDiT),能够同时提取视觉标记和文本标记中的结构信息和语义信息。与以往主要关注视觉内容的DiT架构不同,MVDiT通过并行的视觉-文本架构增强文本和生成视频之间的一致性。其核心机制包括多模态自注意力模块、多模态时间注意力模块和多头交叉注意力模块,分别用于增强标记间的交互、确保时间一致性和融合文本语义信息。 论文标题 : OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Gener ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览