GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

机器学习研究组订阅 · 公众号 · AI · 2024-09-07 19:36

文章预览

Strawberry里究竟有几个r，如今已经成为测试模型能力的黄金标准之一了！就在昨天，号称世界最强模型Reflection 70B在证明自己的性能时，证据之一就是「反思微调」新算法能让自己纠正对Strawberry难题的错误回答。很多人说，现在很多大模型已经学会数strawberry中有几个r了。现实恐怕没有这么理想。还是Riley Goodside小哥，这次又发现，ChatGPT依然数不清Strawberry里有几个r。而且这一次，他给GPT-4o上的是极限难度。 Strawberry里有几个r？GPT-4o回答说：2个。小哥无情地驳回——错误。 GPT-4o立马改正了自己的答案：只有1个r。小哥依然打叉。第三次，GPT-4o给出了正确答案——3个，但依然被小哥判为「错误」。就这样，无论GPT-4o给出什么答案，小哥都无情地判错。被逼疯的GPT-4o，依次给出了如下答案：2、1、3、2、2、3、3、2、4、2、2、3、1、2、3、2、2、3、4 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【NBP：通过半自回归建模实现视频生成的创新方法。亮点：1. 生-20250223130453

昨天

爱可可-爱生活 · [CL] Interpretable Text Embeddin-20250222060228

2 天前

柠檬工会 · 刚刚，DeepSeek 宣布下周连发5个开源项目，太狠了！

3 天前

柠檬工会 · 刚刚，DeepSeek 宣布下周连发5个开源项目，太狠了！

3 天前

爱可可-爱生活 · 本文提出了高效树搜索算法 ETS，通过线性规划成本模型和语义覆盖-20250221054707

3 天前

爱可可-爱生活 · 本文创新性地提出了 MuDAF 方法，通过在注意力头层面应用对比-20250221055216

3 天前

思明快报 · 真“挂”实“干”！从城中村到老旧小区……

8 月前

奇客Solidot · 企业和机构需要重新训练使用笔和纸

5 月前

工业能源圈 · 资产负债率逐年增长，江南新材IPO迎大考

3 月前

六西格玛黑带 · 如何做好受限空间安全管理ppt

2 月前

GPT-4o不会数r，被外国小哥原地逼疯！ 谷歌论文揭秘Transformer「数不到n」

文章预览

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」