专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙

新智元  · 公众号  · AI  · 2024-07-23 11:31

文章预览

   新智元报道   编辑:alan 【新智元导读】 当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。 大数字一向吸引眼球。 千亿参数、万卡集群,——还有各大厂商一直在卷的超长上下文。 从一开始的几K几十K,发展到了如今的百万token级别。 Gemini的最新版本可以接收200万个token作为上下文。 这大概相当于140万个单词、2小时视频或者22小时的音频。 但不知诸位平时用得着这么长的上下文吗?毕竟100K已经相当于一部比较长的小说了。 更重要的是,LLM真的能在这个长度上进行推理吗? 近日,有两篇独立研究分别表明:长上下文水分很大!LLM实际上并不能「理解」内容。 读小说挑战 首先是来自UMass、AI2和普林斯顿的研究人员, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览