专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!

AIWalker  · 公众号  ·  · 2023-11-06 22:00
点击下方卡片,关注「AIWalker」公众号底层视觉干货,即可获取作者 | ai4happiness   相关链接 | https://zhuanlan.zhihu.com/p/660567767Paper:https://arxiv.org/pdf/2310.01852.pdf GitHub: https://github.com/PKU-YuanGroup/LanguageBind Huggingface: https://huggingface.co/Language该工作介绍了一项名为"LanguageBind"的技术,旨在扩展视频-语言(VL)预训练模型的适用性,以处理多模态数据。该技术的核心思想在于以语言模态作为多种不同模态之间的纽带,因为语言模态包含丰富的语义信息。总结主要贡献:该工作提出了基于语言的多模态预训练框架LanguageBind,在预训练过程中通过对比学习将其他模态与语言模态对齐,并且这些模态在一个共享的嵌入空间内统一。VIDAL-10M数据集包含1000万个具有对齐VL、IL、DL和AL的数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。大量的实验验证了VI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照