今天看啥  ›  专栏  ›  AI修猫Prompt

耶鲁:GSM8K多个LLMs已超过94%,基准已失效,用问题链评估LLMs的CoT数学推理

AI修猫Prompt  · 公众号  ·  · 2024-10-08 07:01

文章预览

gai点击上方 蓝字 关注我 本文:4700字阅读  12分钟   在上一篇文章中,我们讨论过,并非所有LLM推理者都具备相同能力《 重磅:Mila和谷歌DeepMind以及微软联合发布,并非所有LLM推理者都具备相同能力 》,这看似简单的问题,其实背后隐含着一个大问题。那就是,很多所谓的“顶尖模型”都在用测评的数据集来做训练,导致基准失效,比如GSM8K,多个LLMs测评的准确率已超过94%,这也是大家认为LLM“掌握”了小学数学的主要原因。 这种现象也带来了一个严峻的挑战:我们如何继续评估和比较这些模型的性能?耶鲁大学的研究团队最近发表的一篇论文为这个问题提供了一个创新的解决方案。 "No problem can be solved from the same level of consciousness that created it."  - Albert Einstein “没有任何问题能够在与其产生时相同的意识层次上被解决。” 意思是,当一个问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览