专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

新智元 · 公众号 · AI · 2024-09-07 13:17

主要观点总结

文章介绍了GPT等大模型在处理简单的计数任务时面临的挑战，特别是针对“Strawberry中有几个r”的问题。文章提到了LLM无法完成该任务的原因，包括tokenization的原理和Transformer模型的局限性。谷歌最近的研究也揭示了LLM在计数任务上的局限性，表明Transformer模型在计数任务方面存在固有的挑战。谷歌的论文深入探讨了模型的维度大小对解决计数任务的影响，并提出了在模型中实现计数的可能方法及其局限性。

关键观点总结

关键观点1: GPT等大模型在面对简单的计数任务时表现不佳，无法准确回答“Strawberry中有几个r”的问题。

文章描述了大模型在处理这种任务时面临的挑战，并指出了问题的原因与tokenization的原理和Transformer模型的局限性有关。

关键观点2: 谷歌的一项研究直接揭示了LLM在计数任务上的局限性，并探讨了模型的维度大小对解决此类任务的影响。

研究表明，当模型的维度足够大时，可以通过计算输入序列的直方图来完成计数任务，但对于较小的维度，一层Transformer则无法实现。

关键观点3: 文章提到了在处理计数任务时可能需要新的工具或方法，如代码解释器等，以解决Transformer模型的局限性。

这表明我们需要不断研究和开发新的技术，以克服现有模型的局限性，并推动AI技术的发展。

文章预览

新智元报道编辑：Aeneas 好困【新智元导读】提示工程师Riley Goodside小哥，依然在用「Strawberry里有几个r」折磨大模型们，GPT-4o在无限次PUA后，已经被原地逼疯！相比之下，Claude坚决拒绝PUA，是个大聪明。而谷歌最近的论文也揭示了本质原因：LLM没有足够空间，来存储计数向量。 Strawberry里究竟有几个r，如今已经成为测试模型能力的黄金标准之一了！就在昨天，号称世界最强模型Reflection 70B在证明自己的性能时，证据之一就是「反思微调」新算法能让自己纠正对Strawberry难题的错误回答。很多人说，现在很多大模型已经学会数strawberry中有几个r了。现实恐怕没有这么理想。还是Riley Goodside小哥，这次又发现，ChatGPT依然数不清Strawberry里有几个r。而且这一次，他给GPT-4o上的是极限难度。 Strawberry里有几个r？GPT-4o回答说：2个。小哥无情地驳回— ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博