专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

对AI的可靠性提出质疑,科学家揭示零模型在大模型基准测试取得高胜率

DeepTech深科技  · 公众号  · 科技媒体  · 2024-12-05 10:30
    

文章预览

随着大语言模型在众多领域的广泛应用,基准测试成为了评估模型质量的关键工具。   但是,如果测试结果受到不当影响,例如操纵模型输出的长度或风格来操纵胜率,模型性能的排名可能因此失去可信度,进而直接影响整个行业的信任和技术进步。   为促进更加公平和可靠的评价体系,新加坡 Sea AI Lab  和新加坡管理大学团队合作,颠覆了传统意义上针对有意义输出的对抗性攻击。 他们提出,将完全无意义的“零模型 ” (Null Model)作为极端测试也可以利用评估过程中的结构性弱点,欺骗自动基准测试并获得高胜率。 更令人担忧的是,由于研究假设这些基准测试的指令(例如 AlpacaEval 2.0 的 805 个样本)是私有的且无法被访问,因此这些作弊输出可以被转移。 研究人员揭示了现有自动化大模型基准测试(例如 AlpacaEval 2.0)的脆弱性,并验证了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览