如何评估多模态大模型？多模态大型语言模型评估的综述

专知 · 公众号 · · 2024-12-02 11:00

文章预览

摘要 —作为人工通用智能（AGI）中的一个重要方向，多模态大型语言模型（MLLMs）已经引起了业界和学术界的广泛关注。基于预训练的大型语言模型，这类模型进一步发展了多模态感知和推理能力，表现出令人印象深刻的能力，例如根据流程图编写代码或基于图像创作故事。在开发过程中，评估至关重要，因为它为模型改进提供了直观的反馈和指导。与传统的训练-评估-测试范式（通常只针对单一任务，如图像分类）不同，MLLMs的多功能性促使了各种新基准和评估方法的兴起。本文旨在提供一份关于MLLM评估的全面调查，讨论四个关键方面：1）按评估能力分类的基准类型总结，包括基础能力、模型自我分析和扩展应用；2）基准构建的典型过程，包括数据收集、标注和注意事项；3）系统评估方式，由判定、度量标准和工具包组成；4）下一个基准的展 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

六里投资报 · 霍华德·马克斯谈泡沫：以现在的市盈率买标普500，历史表明只能获得负2%-2%的10年收益率

昨天

六里投资报 · 霍华德·马克斯谈泡沫：以现在的市盈率买标普500，历史表明只能获得负2%-2%的10年收益率

昨天

IT桔子 · “爸爸去哪儿”之 VC 版——这两年，投资人们组团溜达，最后把钱投哪里了？｜看图

昨天

创伙伴 · 回家创业一年，才知道县城的可能性有多大！

2 天前

创伙伴 · 保时捷，扛不住了！

4 天前

创伙伴 · 大批商家逃离，直播电商的死局和生门！

4 天前

医疗装备杂志 · 2023年度国家科学技术奖揭晓，30余项医学健康相关项目入选

6 月前

哲学王读书 · “天天在操心美国？”

5 月前

微思教育 · 微思直播 | 多国/地区混申难？工大学长在NTU复盘申请：拿下梦校offer，有的是手段！

3 月前