打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

机器学习算法与自然语言处理 · 公众号 · · 2025-01-19 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 量子位作者 | 奇月很多大模型的官方参数都声称自己可以输出长达32K tokens的内容，但这数字实际上是存在水分的？？最近，陈丹琦团队提出了一个全新的基准测试工具LONGPROC，专门用于检测长上下文模型处理复杂信息并生成回复的能力。实验结果有点令人意外，团队发现，包括GPT-4o等最先进的模型在内，尽管模型在常用长上下文回忆基准上表现出色，但在处理复杂的长文生成任务时仍有很大的改进空间。具体来说，测试的所有模型都声称自己上下文窗口大小超过32K tokens，但开源模型一般在2K tok ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

润农畜牧报价 · 2025年1月21日山东到车辆743车，锦州港合同粮为主，收购价格稳定！

20 小时前

下厨房 · 没有它的冬天不完整！鲜嫩紧实又滋补，一顿能吃两大盘！

20 小时前

下厨房 · 浓浓蛋奶香，整粒坚果看得见，好吃不贵，一整个爱住了！

昨天

经视直播 · 已出现多例！甲流引起面瘫？医生提醒：一定要注意→

昨天

材料分析与应用 · Nature重磅：机器学习撬动材料领域学科研究惊人力量，AI已绕不开，启发未来顶级的材料设计！

2 月前