文章预览
多模态大规模语言模型(MLLMs)因其在视觉问答、视觉感知、理解与推理等多种应用中的出色表现,在学术界和工业界日益受到关注。近年来,研究人员从多个角度对 MLLMs 进行了深入研究。 本文对180个 MLLMs 的基准和评估进行了全面综述,重点探讨了以下几个方面:(1) 感知与理解,(2) 认知与推理,(3) 特定领域,(4) 关键能力,以及 (5) 其他模态 。最后,我们讨论了当前 MLLMs 评估方法的局限性,并探讨了未来的有前景的研究方向。我们的核心论点是,评估应被视为一门至关重要的学科,以更好地支持 MLLMs 的发展。更多详情请访问我们的 GitHub 仓库: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。 1 引言 近年来,大规模语言模型(LLM)在学术界和工业界引起了广泛关注 。诸如GPT [1] 等LLM的出色表现使人们对其代表通用人工智能(AGI)迈出的重要一
………………………………