今天看啥  ›  专栏  ›  人工智能前沿讲习

NeurIPS 2024震撼发布:上交大&清华领衔创新,Diff-eRank大模型评估新指标,精准衡量LLM去噪实力!

人工智能前沿讲习  · 公众号  ·  · 2024-11-25 18:00
    

文章预览

点击上方蓝字关注我们 自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来,大语言模型的发展十分迅速,并已经从单模态大语言模型扩展到了多模态大模型,例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。 如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现,例如准确率 (Accuracy) 、交叉熵损失 (Cross-Entropy Loss) 等指标。但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。 此外,对于多模态大语言模型,现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此,现阶段对于纯语言大模型和多模态大模型的评估方法仍然存在较大的局限性,需要更加 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览