专栏名称: AI修猫Prompt

专注于生成式AI的Prompt Engineering领域。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

品牌星球Brandstar · 专访三顿半：为什么要开一家非标的体验空间？ · 18 小时前

国家数据局 · 数字中国建设典型案例之四十五 | ... · 昨天

科技新知 · 上汽荣威飞凡全新R7惊艳广州车展，展现新能源 ... · 2 天前

科技阿水 · 20万人在线预约，百度文库又整了什么大活儿？ · 3 天前

人人都是产品经理 · 我的AI恋人，因为降本增效“死”了 · 3 天前

今天看啥 › 专栏 › AI修猫Prompt

耶鲁：GSM8K多个LLMs已超过94%，基准已失效，用问题链评估LLMs的CoT数学推理

AI修猫Prompt · 公众号 · · 2024-10-08 07:01

文章预览

gai点击上方蓝字关注我本文：4700字阅读 12分钟在上一篇文章中，我们讨论过，并非所有LLM推理者都具备相同能力《重磅：Mila和谷歌DeepMind以及微软联合发布，并非所有LLM推理者都具备相同能力》，这看似简单的问题，其实背后隐含着一个大问题。那就是，很多所谓的“顶尖模型”都在用测评的数据集来做训练，导致基准失效，比如GSM8K，多个LLMs测评的准确率已超过94%，这也是大家认为LLM“掌握”了小学数学的主要原因。这种现象也带来了一个严峻的挑战：我们如何继续评估和比较这些模型的性能？耶鲁大学的研究团队最近发表的一篇论文为这个问题提供了一个创新的解决方案。 "No problem can be solved from the same level of consciousness that created it." - Albert Einstein “没有任何问题能够在与其产生时相同的意识层次上被解决。” 意思是，当一个问题 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

品牌星球Brandstar · 专访三顿半：为什么要开一家非标的体验空间？

18 小时前

国家数据局 · 数字中国建设典型案例之四十五 | 数字洱海监管服务平台建设

昨天

国家数据局 · 数字中国建设典型案例之四十五 | 数字洱海监管服务平台建设

昨天

科技新知 · 上汽荣威飞凡全新R7惊艳广州车展，展现新能源“国家队”硬实力

2 天前

科技新知 · 上汽荣威飞凡全新R7惊艳广州车展，展现新能源“国家队”硬实力

2 天前

科技阿水 · 20万人在线预约，百度文库又整了什么大活儿？

3 天前

人人都是产品经理 · 我的AI恋人，因为降本增效“死”了

3 天前

博物倌 · 中国李庄文化抗战博物馆

2 月前

北大纵横 · 钻石行业，被单身年轻人重创？

2 月前