专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

节省99.7%训练成本!斯坦福、伯克利新作揭示多模态大模型的视觉表示定律

PaperWeekly  · 公众号  · 科研  · 2024-09-22 23:58

文章预览

当前的多模态大模型(MLLMs)取得了显著进展。然而,选择合适的 vision encoder 一直是一个经验性很强的过程,通常来讲研究人员需要对特定的 vision encoder 进行 pretrain+finetune,然后在多模态的 benchmark 上进行 performance 的测量。 这种方法开销很大,且未能深入探讨到底什么样的视觉特征会更好,因为 pretrain+finetuning 两个阶段耦合在了一起。因此,针对特定 MLLM 的最优视觉表示往往由经验性能决定,我们并不清楚 pretrain 阶段之后,视觉特征到底好不好。 本文提出了“多模态大模型中的视觉表示定律”,揭示了视觉特征的两个关键属性, 跨模态对齐 和 视觉表示的一致性 与 MLLM 性能之间的具有强相关,而且这两个 metric 可以不用 finetuning 整个 language model 就可以进行测量,从而快速的判断出用哪种 vision encoder 更为合理,减少了 99.7% 的计算成本。 论文题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览