文章预览
本文 约3000字 ,建议阅读 6分钟 本文提出了一种新的评估指标——模态融合率。 近日,中国科学技术大学与上海人工智能实验室的研究者们提出了一种新的评估指标—— 模 态融合率 (Modality Integration Rate,MIR) ,旨在高效评估多模态大模型的预训练质量。该指标可以在快速准确地衡量预训练后多模态 LLM 的模态对齐程度。 论文标题: Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate 论文链接: https://arxiv.org/abs/2410.07167 代码链接: https://github.com/shikiw/Modality-Integration-Rate 1、背景 预训练阶段在多模态大模型(MLLM)的训练中占据了核心地位,区别于传统的纯语言大模型(LLM)预训练,多模态预训练的关键在于实现不同模态之间的有效对齐。 近年来,MLLM 的发展经历了从使用数十万图像-文本对进行初步对齐,向利用丰富多样的
………………………………