专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

量子位  · 公众号  · AI  · 2024-11-08 15:03

文章预览

上交大MIFA实验室 魏来 投稿 量子位 | 公众号 QbitAI 能够深入大模型内部的新评测指标来了! 上交大MIFA实验室提出了全新的大模型评估指标 Diff-eRank 。 不同于传统评测方法,Diff-eRank 不研究模型输出,而是选择了分析其背后的隐藏表征 。 该方法从 信息论和几何的视角 ,分析大模型的隐藏表征,量化大语言模型在训练前后如何剔除数据中的冗余信息,并以此作为衡量模型性能的指标。 对于多模态大模型,研究团队也设计了 基于秩的评估方法 ,用于衡量不同模态之间的 对齐程度 。 目前, 本工作已被NeurIPS 2024接收 。 将评估深入到大模型内部 在进行Diff-eRank的相关工作之前,作者首先提出了这样一个问题—— 一个语言模型是如何从海量的训练数据中「学习」到知识的? 对于这个问题,前OpenAI科学家 Ilya Sutskever 在2023年的演讲中曾经这样说: 大语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览