一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

机器学习算法与自然语言处理  · 公众号  ·  · 2025-01-19 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 量子位 作者 | 奇月 很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的?? 最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。 实验结果有点令人意外,团队发现,包括GPT-4o等最先进的模型在内,尽管模型在常用长上下文回忆基准上表现出色,但在处理复杂的长文生成任务时仍有很大的改进空间。 具体来说,测试的所有模型都声称自己上下文窗口大小超过32K tokens,但开源模型一般在2K tok ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览