专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NeurlPS 2024 | 上交大、清华提出Diff-eRank，大模型评估的全新视角与方法

PaperWeekly · 公众号 · 科研 · 2024-11-08 13:06

文章预览

©PaperWeekly 原创 · 作者 | 魏来单位 | 上海交通大学MIFA实验室研究方向 | 大语言模型、多模态大模型自从 GPT、PaLM、Llama 等预训练大语言模型在各种自然语言处理任务上表现出优秀的性能以来，大语言模型的发展十分迅速，并已经从单模态大语言模型扩展到了多模态大模型，例如 MiniGPT-4、LLaVA 等都在各种应用场景中取得了相当惊艳的效果。如何全面、科学地评估这些模型的性能成为了研究者们面临的一个重要挑战。传统的评估方法多集中于模型在下游任务上的表现，例如准确率（Accuracy）、交叉熵损失（Cross-Entropy Loss）等指标。但这些方法只关注模型的预测结果与标注标签之间的比较，无法深入探究模型内部的信息处理过程。此外，对于多模态大语言模型，现有的评估指标无法给出诸如模态之间的对齐程度等更加重要维度上的评价。因此 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

研之成理 · 宁夏大学罗民课题组：MOF衍生的低结晶度Co-N-C电催化剂用于硝酸根还原合成氨

5 天前

国际新闻界 · 刘海龙：为什么要看纸质版杂志？

5 天前

实验万事屋 · 现在的博士生，可能都卷不过聪明点的本科生了，就算在实验室天天当牛马也救不了你……

5 天前

PaperWeekly · 博士申请 | 香港科技大学（广州）戴恩炎老师招收AI for Protein全奖博士/实习生

6 天前

实验万事屋 · 虽然在师弟师妹面前叱诧风云，但说到免疫微环境的Toll样受体和NFκB，我还是一脸懵逼……

6 天前