专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

新智元 · 公众号 · AI · 2024-07-23 11:31

文章预览

新智元报道编辑：alan 【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群，——还有各大厂商一直在卷的超长上下文。从一开始的几K几十K，发展到了如今的百万token级别。 Gemini的最新版本可以接收200万个token作为上下文。这大概相当于140万个单词、2小时视频或者22小时的音频。但不知诸位平时用得着这么长的上下文吗？毕竟100K已经相当于一部比较长的小说了。更重要的是，LLM真的能在这个长度上进行推理吗？近日，有两篇独立研究分别表明：长上下文水分很大！LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [LG]《NeuralDEM - Real-time Simul-20241116054426

2 天前

爱可可-爱生活 · 【AG2（AutoGen）：用于构建AI智能体的编程框架，帮助多-20241115205945

2 天前

爱可可-爱生活 · 【Lucid v1：实时潜在世界模型推断演示项目，支持与 RTX-20241112140641

5 天前

爱可可-爱生活 · 【Lyceum：一款多人在线游戏，服务器用Erlang编写，客户-20241112141253

5 天前

爱可可-爱生活 · 【Twilio语音助手：通过Twilio语音服务和OpenAI实-20241110175456

1 周前

朝闻技医 · 【文献碎碎念】Radiology - 如何撰写一篇的同行评审

3 月前

中建六局 · 塑强基建支柱优势丨重点工程巡礼之国道204大沽河特大桥工程

3 月前

素食星球 · 三伏之后补充体液，就靠一碗汤啦

3 月前