专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ICML 2024 | 直面CLIP内在缺陷,Meta提出全新latent对比预训练框架Llip

将门创投  · 公众号  · 科技创业  · 2024-09-13 08:22

文章预览

基于 对比视觉-语言预训练技 术 的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础,缺乏进一步的发展。 此外,鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制 ,可以认为这限制了对比预训练模型描述图像各种其他方面的能力。 本文介绍一篇来自Meta AI和纽约大学等研究机构合作完成的工作 ,目前已发表在国际机器学习顶级会议ICML 2024上。 本文提出了一种名为Llip的架构(Latent Language Image Pretraining),即潜空间图像语言预训练 。Llip以图像字幕生成(Image Caption)任务作为出发点, 用来模拟自然场景中与单张图像进行匹配caption的多样性 。Llip仍然采用双塔特征提取模式,其视觉编码器可以对给定图像输出一组视觉特征, 这些特征可以总结与当前图像匹配的多样式captions中的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览