专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !

FightingCV  · 公众号  ·  · 2024-09-05 09:00

文章预览

关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→   FightingCV交流群 作者在多模态大型语言模型(MLLMs)中提出了“视觉表示法则”(Law of Vision Representation)。 该法则揭示了跨模态对齐、视觉表示的一致性和MLLM性能之间存在强烈相关性。 作者使用跨模态 A lignment和 C orrespondence分数( AC 分数)来量化这两者。 通过涉及13种不同的视觉表示设置和跨越八个基准的评估,作者发现AC分数与模型性能呈线性相关。 通过利用这一关系,作者能够仅确定并训练最优视觉表示,而无需每次微调语言模型,从而实现了计算成本的99.7%降低。 代码已在https://github.com/bronyayang/Law_of_Vision_Representation_in_MLLMs上公开。 1 Introduction 当前的多模态大型语言模型(MLLM)通过将预训练的视觉编码器与强大的语言模型(Touvron等人,2023;Zheng等人,202 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览