专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

更难、更好、更快、更强:LLM Leaderboard v2 现已发布

包包算法笔记  · 公众号  ·  · 2024-06-27 09:59

文章预览

评估和比较大语言模型 (LLMs) 是一项艰巨的任务。我们 RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺乏可复现的代码,有时令人怀疑,大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此,他们决定创建一个地方,在完全相同的设置 (同样的问题,按相同的顺序提问等) 下评估参考模型,从而收集完全可复现和可比较的结果;Open LLM Leaderboard 就这样的背景下发布啦! 在一系列高调的模型发布后,它成为了机器学习社区及更广泛领域内的广泛资源,过去 10 个月中有超过 200 万的独立访问者。 每月约有 30 万社区成员通过提交和讨论使用这个平台,通常是为了: 寻找最先进的开源发布,因为排行榜提供了可复现的得分,区分了营销炒作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览