专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」

新智元  · 公众号  · AI  · 2024-09-07 13:17

主要观点总结

文章介绍了GPT等大模型在处理简单的计数任务时面临的挑战,特别是针对“Strawberry中有几个r”的问题。文章提到了LLM无法完成该任务的原因,包括tokenization的原理和Transformer模型的局限性。谷歌最近的研究也揭示了LLM在计数任务上的局限性,表明Transformer模型在计数任务方面存在固有的挑战。谷歌的论文深入探讨了模型的维度大小对解决计数任务的影响,并提出了在模型中实现计数的可能方法及其局限性。

关键观点总结

关键观点1: GPT等大模型在面对简单的计数任务时表现不佳,无法准确回答“Strawberry中有几个r”的问题。

文章描述了大模型在处理这种任务时面临的挑战,并指出了问题的原因与tokenization的原理和Transformer模型的局限性有关。

关键观点2: 谷歌的一项研究直接揭示了LLM在计数任务上的局限性,并探讨了模型的维度大小对解决此类任务的影响。

研究表明,当模型的维度足够大时,可以通过计算输入序列的直方图来完成计数任务,但对于较小的维度,一层Transformer则无法实现。

关键观点3: 文章提到了在处理计数任务时可能需要新的工具或方法,如代码解释器等,以解决Transformer模型的局限性。

这表明我们需要不断研究和开发新的技术,以克服现有模型的局限性,并推动AI技术的发展。


文章预览

   新智元报道   编辑:Aeneas 好困 【新智元导读】 提示工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。而谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。 Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了! 就在昨天,号称世界最强模型Reflection 70B在证明自己的性能时,证据之一就是「反思微调」新算法能让自己纠正对Strawberry难题的错误回答。 很多人说,现在很多大模型已经学会数strawberry中有几个r了。 现实恐怕没有这么理想。 还是Riley Goodside小哥,这次又发现,ChatGPT依然数不清Strawberry里有几个r。 而且这一次,他给GPT-4o上的是极限难度。 Strawberry里有几个r?GPT-4o回答说:2个。 小哥无情地驳回— ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览