文章预览
点击上方蓝字关注我们 自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来,大语言模型的发展十分迅速,并已经从单模态大语言模型扩展到了多模态大模型,例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。 如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现,例如准确率 (Accuracy) 、交叉熵损失 (Cross-Entropy Loss) 等指标。但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。 此外,对于多模态大语言模型,现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此,现阶段对于纯语言大模型和多模态大模型的评估方法仍然存在较大的局限性,需要更加
………………………………