今天看啥  ›  专栏  ›  NewBeeNLP

ICLR 2025(投稿) | 多模态大语言模型相关论文整理

NewBeeNLP  · 公众号  ·  · 2024-11-11 11:05
    

文章预览

©  作者|刘子康 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 机构|中国人民大学 研究方向|多模态,自然语言处理 引言 随着大语言模型的迅速发展,如何将大语言模型应用在视觉领域也成为了一个热门研究方向。在本文中,我们从MLLM的训练,安全性分析,高效部署等方面,筛选并总结了十篇论文,展示了当下多模态大语言模型研究的具体内容。 LAW OF VISION REPRESENTATION IN MLLMS 本文主要研究了多模态大语言模型中模型性能与跨模态对齐和视觉表示相关性的对应关系。作者提出了“视觉表示定律”来展现这种关联。为了诠释这种相关性,作者提出了AC分数,即Cross-modal alignment(A) 与 Correspondence(C) of the vision representation,并认为模型的最终性能与该AC分数存在一个线性关系。 为了从实验角度证实这种关系的存在,本文首先对A分数与C分数分别进行了计算。对于A分数(跨模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览