专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

NeurlPS 2024 | 上交大、清华提出Diff-eRank,大模型评估的全新视角与方法

PaperWeekly  · 公众号  · 科研  · 2024-11-08 13:06

文章预览

©PaperWeekly 原创 · 作者 |  魏来 单位 |  上海交通大学MIFA实验室 研究方向 |  大语言模型、多模态大模型 自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来,大语言模型的发展十分迅速,并已经从单模态大语言模型扩展到了多模态大模型,例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。 如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现,例如准确率(Accuracy)、交叉熵损失(Cross-Entropy Loss)等指标。但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。 此外,对于多模态大语言模型,现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览