专栏名称: 灵度智能
致力于提供优质的AI服务。
今天看啥  ›  专栏  ›  灵度智能

开源项目 | 多模态大模型 VideoCLIP-XL:一种新的视频 CLIP 模型

灵度智能  · 公众号  ·  · 2024-10-15 12:30
    

文章预览

点击下方卡片,关注 「魔方AI空间」 公众号 简介 对比语言-图像预训练(CLIP) 已被广泛研究和应用于众多应用。然而,在预训练期间强调简短摘要文本会阻止CLIP理解长描述。这个问题对于视频尤其严重,因为视频通常包含丰富的详细内容。 VideoCLIP-XL 模型,旨在释放视频CLIP模型的长描述理解能力。还使用自动数据收集系统收集并发布了包含超过200万视频和长描述对的新的预训练数据集VILD。 本文提出 TPCM 用于动态特征学习,同时扩展长描述能力。还提出了两个新任务(即DDR和HDR),以进一步建模有效属性,从而更好地表示学习长描述。 为了更好地评估视频CLIP模型的长描述能力,提出 LVDR 基准测试进行长描述排名。 广泛的实验表明, VideoCLIP-XL 在各种任务和基准测试上明显优于最先进的模型。 论文地址:https://arxiv.org/pdf/2410.00741 模型地址:https ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览