专栏名称: Z Potentials
我们与Z Potentials同频共振
今天看啥  ›  专栏  ›  Z Potentials

深度|LLM到底哪家强?万字访谈OpenLLM排行榜维护者——LLM评估基准的真相

Z Potentials  · 公众号  ·  · 2024-07-30 12:08
    

文章预览

图片来源:Latent Space Z Highlights: 排行榜的优势: Hugging Face OpenLLM排行榜维护者Clémentine Fourrier 强调,排行榜提供了更可重复和标准化的模型评估方法,相较于 Arena 和 LLM 作为评判者,解决了基准可重复性的问题,并强调了一致性评估方法的重要性。 模型评估挑战: 文章讨论了模型过拟合和数据污染的问题,这些问题导致基准分数膨胀。OpenLLM v2 通过引入新的基准,提供更严格的评估标准来应对这些问题。 LLM 作为评判者的局限性: Clémentine 批评使用 LLM 作为评判者,指出其存在模式坍缩和位置偏见等问题。她建议使用开源 LLM 以确保可重复性,并建议进行排名而不是评分以减轻这些偏见。 从基准到排行榜 快进1.5年,模型发展的速度远远超过了基准更新的速度。前沿实验室仍然使用 MMLU 和 HumanEval 进行模型营销,尽管大多数模型的成功率都达到了自 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览