注册登录

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

冷丫 · 作为女大学生刚毕业，我和陌生人合租一张床 · 23 小时前

不正常人类研究中心 · 以后不是这种调查的就别来找我了 · 2 天前

英式没品笑话百科 · “我们是平等的” -20241211161708 · 2 天前

冷兔 · 别扇了，一会儿门被扇感冒了！ · 4 天前

冷笑话 · 看来谁也拒绝不了免费洗车的诱惑，感谢大自然的馈赠！ · 5 天前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

机器学习算法与自然语言处理 · 公众号 · · 2024-06-25 09:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 量子位作者 | 克雷西一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了！而且无论是GPT-4还是Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫“劣效比率”（crapness ratio），让LeCun打趣说到，一项新的“Benchmark”诞生 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

冷丫 · 作为女大学生刚毕业，我和陌生人合租一张床

23 小时前

不正常人类研究中心 · 以后不是这种调查的就别来找我了

2 天前

英式没品笑话百科 · “我们是平等的” -20241211161708

2 天前

冷兔 · 别扇了，一会儿门被扇感冒了！

4 天前

冷笑话 · 看来谁也拒绝不了免费洗车的诱惑，感谢大自然的馈赠！

5 天前

南国都市报 · 海南公布2024年高招本科录取分数线

5 月前

魔都财观 · 上海楼市反转，买房逻辑变了！

1 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号