专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

如何评估多模态大模型?多模态大型语言模型评估的综述

专知  · 公众号  ·  · 2024-12-02 11:00
    

文章预览

摘要 —作为人工通用智能(AGI)中的一个重要方向,多模态大型语言模型(MLLMs)已经引起了业界和学术界的广泛关注。基于预训练的大型语言模型,这类模型进一步发展了多模态感知和推理能力,表现出令人印象深刻的能力,例如根据流程图编写代码或基于图像创作故事。 在开发过程中,评估至关重要,因为它为模型改进提供了直观的反馈和指导。与传统的训练-评估-测试范式(通常只针对单一任务,如图像分类)不同,MLLMs的多功能性促使了各种新基准和评估方法的兴起。本文旨在提供一份关于MLLM评估的全面调查,讨论四个关键方面:1)按评估能力分类的基准类型总结,包括基础能力、模型自我分析和扩展应用;2)基准构建的典型过程,包括数据收集、标注和注意事项;3)系统评估方式,由判定、度量标准和工具包组成;4)下一个基准的展 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览