今天看啥  ›  专栏  ›  机器之心

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

机器之心  · 公众号  · AI  · 2024-06-17 12:03
    

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。 在这个过程中, 模态的对齐是通过文本 token 隐式实现的 ,如何做好这一步的对齐非常关键。 针对这一问题,武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种 基于对比学习的文本 token 筛选方法(CAL) ,从文本中筛选出与图像高度相关的 token,并加大其损失函数权重,从 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览