上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力

夕小瑶科技说 · 公众号 · · 2024-08-07 14:40

文章预览

夕小瑶科技说原创作者 | Richard 现在的大模型论文简直像是在比长度，动不动就上百页！记得前阵子小编瞅见那份90页的Gemini技术报告，顿时脑袋嗡嗡作响。那会儿就幻想着：要是有个AI大脑来啃下这些"学术巨无霸"，那岂不是爽歪歪？没想到过了几个月，这个幻想竟然实现了！如今大语言模型正在挑战这一难题，试图成为我们阅读长文本的得力助手。但问题是，这些AI助手自己对付长文本的能力如何呢？近日，上海AI实验室推出了一个名为NeedleBench的评测框架，对36个主流大模型展开了一场别开生面的"长文本大比拼"。这项研究不仅测试了模型们在不同长度文本上的表现，还设计了一系列渐进式的挑战任务，就像是给LLMs出了一道道难度递增的阅读理解题。有趣的是，在这场比拼中被誉为"LLM界的高考状元"的GPT-4竟然只拿到了第二名！反倒是Clau ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人人都是产品经理 · 百事，为何总爱“挑衅”可口可乐？

1小时前

36氪 · 从牧场到餐桌，一杯AI牛奶的数智启示录

12 小时前

新浪科技 · 【#624万美元买下一根香蕉#？】意大利艺术家卡特兰2019年的-20241121201000

13 小时前

新浪科技 · 【#阿里整合国内和海外电商##阿里成立电商事业群#】11月21日-20241121175245

15 小时前

新浪科技 · 【#Steam季票规则更新##Steam要求厂商明确DLC发布时-20241121101726

23 小时前

水木纪要 · 水木调研纪要2.0来了，活动大优惠来了！

4 月前