专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

AI TIME 论道  · 公众号  ·  · 2024-11-15 18:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击  阅读原文  观看讲者讲解回放! 自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来,大语言模型的发展十分迅速,并已经从单模态大语言模型扩展到了多模态大模型,例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。 如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。 传统的评估方法多集中于模型在下游任务上的表现,例如准确率 (Accuracy) 、交叉熵损失 (Cross-Entropy Loss) 等指标。但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。 此外,对于多模态大语言模型,现有的评估指标 无法给出诸如模态之间的对齐程度 等更加重要维度上的评价。因此,现阶段对于纯 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览