专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

大模型榜单还能信吗?一个假模型就能登顶排行榜

深度学习与NLP  · 公众号  ·  · 2024-10-15 08:00
    

文章预览

1. 缘起 目前评测大语言模型主要有两种方法: • 通过人类投票来进行评估,比如:Chatbot Arena,但是这种往往需要花费较长的时间。 • 为了降低人类标注的依赖,还有另外一种自动化的LLM基准测试。这种方法成本低、容易扩展。 自动化基准测试也成为了众多模型的热门选择,而且测试中的高胜率往往能带来显著的宣传优势。 但是,自动化基准测试的胜率可能会受到长度和风格偏见的影响。虽然大多数这种影响是来自训练数据集,但是这也导致存在操纵胜率的可能性。 在本篇论文里,作者通过提交一个“假模型”来对自动化测试进行压力测试。 2. 作弊策略(假模型策略) 从上图可以看到 suffix策略 (指只使用对抗性后缀策略,不对输入指令作出有实质内容的回应)情况下,并没有实质的作弊效果。所以,作者提出了新的作弊策略: • (1)构建 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览