专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

对AI的可靠性提出质疑，科学家揭示零模型在大模型基准测试取得高胜率

DeepTech深科技 · 公众号 · 科技媒体 · 2024-12-05 10:30

文章预览

随着大语言模型在众多领域的广泛应用，基准测试成为了评估模型质量的关键工具。但是，如果测试结果受到不当影响，例如操纵模型输出的长度或风格来操纵胜率，模型性能的排名可能因此失去可信度，进而直接影响整个行业的信任和技术进步。为促进更加公平和可靠的评价体系，新加坡 Sea AI Lab 和新加坡管理大学团队合作，颠覆了传统意义上针对有意义输出的对抗性攻击。他们提出，将完全无意义的“零模型 ” （Null Model）作为极端测试也可以利用评估过程中的结构性弱点，欺骗自动基准测试并获得高胜率。更令人担忧的是，由于研究假设这些基准测试的指令（例如 AlpacaEval 2.0 的 805 个样本）是私有的且无法被访问，因此这些作弊输出可以被转移。研究人员揭示了现有自动化大模型基准测试（例如 AlpacaEval 2.0）的脆弱性，并验证了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

腾讯研究院 · 腾讯研究院AI速递 20241212

昨天

新浪科技 · 【#小杨哥今年掉粉近1000万##小杨哥粉丝数仍过亿#】小杨哥停-20241210213700

2 天前

十字路口Crossing · 「让我们快速到达下一个失败」：AI 时代的增长黑客修炼指南 | 对话王博龙

5 天前

十字路口Crossing · 「让我们快速到达下一个失败」：AI 时代的增长黑客修炼指南 | 对话王博龙

5 天前

新浪科技 · 【#韩国首尔部分地区出现网络故障#】据报道，周六，韩国首尔汝矣岛-20241207182500

5 天前

新浪科技 · 【#Paytm新加坡公司将以419亿日元向软银出售PayPay股-20241207175500

5 天前

国企求职 · 广州银行2025届校园招

1 月前

常岩CY · 意外地遇到一个博物馆，总会有意外的收获。昨天正好在等人期间停到了-20241118215114

3 周前