文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 专知 链接:https://arxiv.org/abs/2408.15769 多模态大语言模型(MLLMs)通过将强大的大语言模型(LLMs)与各种模态编码器(例如视觉、音频)相结合,模仿了人类的感知和推理系统,将LLMs定位为“大脑”,而将各种模态编码器视为感官器官。这个框架赋予了MLLMs类似于人类的能力,并为实现人工通用智能(AGI)提供了潜在的路径 。随着GPT-4V和Gemini等全方位MLLMs的出现,已经开发了多种评估方法来评估其在不同维度上的能力。本文系统且全面地综述了MLLMs的评估方法,涵盖以下关键方面 : (1)MLLMs及其评
………………………………