专栏名称: AIWalker

关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营，原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

超越imagebind, 北大&腾讯提出LanguageBind, 打造多模态15边型战士！

AIWalker · 公众号 · · 2023-11-06 22:00

点击下方卡片，关注「AIWalker」公众号底层视觉干货，即可获取作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767Paper：https://arxiv.org/pdf/2310.01852.pdf GitHub: https://github.com/PKU-YuanGroup/LanguageBind Huggingface: https://huggingface.co/Language该工作介绍了一项名为"LanguageBind"的技术，旨在扩展视频-语言（VL）预训练模型的适用性，以处理多模态数据。该技术的核心思想在于以语言模态作为多种不同模态之间的纽带，因为语言模态包含丰富的语义信息。总结主要贡献：该工作提出了基于语言的多模态预训练框架LanguageBind，在预训练过程中通过对比学习将其他模态与语言模态对齐，并且这些模态在一个共享的嵌入空间内统一。VIDAL-10M数据集包含1000万个具有对齐VL、IL、DL和AL的数据对，是第一个具有深度和红外模态的大规模视频多模态数据集。大量的实验验证了VI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博