高效评估多模态LLM预训练质量！中科大等提出模态融合率MIR

数据派THU · 公众号 · 大数据 · 2024-11-15 17:00

文章预览

本文约3000字，建议阅读 6分钟本文提出了一种新的评估指标——模态融合率。近日，中国科学技术大学与上海人工智能实验室的研究者们提出了一种新的评估指标—— 模态融合率（Modality Integration Rate，MIR），旨在高效评估多模态大模型的预训练质量。该指标可以在快速准确地衡量预训练后多模态 LLM 的模态对齐程度。论文标题： Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate 论文链接： https://arxiv.org/abs/2410.07167 代码链接： https://github.com/shikiw/Modality-Integration-Rate 1、背景预训练阶段在多模态大模型（MLLM）的训练中占据了核心地位，区别于传统的纯语言大模型（LLM）预训练，多模态预训练的关键在于实现不同模态之间的有效对齐。近年来，MLLM 的发展经历了从使用数十万图像-文本对进行初步对齐，向利用丰富多样的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博