注册
登录
专栏名称:
arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
每日怡见
·
暖fufu~男女可穿适合过冬的珊瑚绒睡衣来了 ...
·
2 天前
每日怡见
·
暖fufu~男女可穿适合过冬的珊瑚绒睡衣来了 ...
·
2 天前
国际家居
·
榻榻米真OUT了,宜家新出一套神奇家具
·
5 天前
国际家居
·
榻榻米真OUT了,宜家新出一套神奇家具
·
5 天前
清单
·
7 种温暖治愈的味道,让心情变好!
·
6 天前
今天看啥
›
专栏
›
arXiv每日学术速递
LLM2CLIP:强大的语言模型解锁更丰富的视觉表示
arXiv每日学术速递
·
公众号
· · 2024-11-17 20:09
文章预览
摘要 CLIP 是当今最重要的多模态基础模型之一,它使用大规模图像文本对上的简单对比学习损失,将视觉和文本信号对齐到共享特征空间。 什么赋予了 CLIP 的能力? 自然语言提供的丰富的监督信号——人类知识的载体——塑造了强大的跨模态表示空间。 因此,CLIP 支持各种任务,包括零样本分类、检测、分割和跨模态检索,对整个多模态领域产生了重大影响。 然而,随着 GPT-4 和 LLaMA 等大型语言模型 (LLM) 的快速发展,语言理解和生成的边界不断被打破。 这提出了一个有趣的问题: 大语言模型的能力是否可以被利用来进一步改进多模态表示学习? 将 LLM 纳入 CLIP 的潜在好处是显而易见的。 LLM 强大的文本理解能力可以从根本上提高 CLIP 处理图像标题的能力,从而大大增强其处理长而复杂文本的能力——这是普通 CLIP 的一个众所周知的局限 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
每日怡见
·
暖fufu~男女可穿适合过冬的珊瑚绒睡衣来了,79元到手!
2 天前
每日怡见
·
暖fufu~男女可穿适合过冬的珊瑚绒睡衣来了,79元到手!
2 天前
国际家居
·
榻榻米真OUT了,宜家新出一套神奇家具
5 天前
国际家居
·
榻榻米真OUT了,宜家新出一套神奇家具
5 天前
清单
·
7 种温暖治愈的味道,让心情变好!
6 天前
上海博物馆
·
上博东馆丨上博首个考古常设展“考古上海”,梳理六千年城市文脉
3 月前