打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

量子位 · 公众号 · AI · 2025-01-15 19:36

主要观点总结

这篇文章介绍了陈丹琦团队提出的全新基准测试工具LONGPROC，用于检测长上下文模型处理复杂信息并生成回复的能力。实验结果显示，包括GPT-4o等最先进的模型在处理长文生成任务时仍有很大改进空间。文章还详细描述了LONGPROC基准包含的6个生成任务以及实验任务设置和实验结果分析。

关键观点总结

关键观点1: 陈丹琦团队提出了全新的基准测试工具LONGPROC，用于检测长上下文模型的能力。

LONGPROC专门用于检测模型处理复杂信息并生成回复的能力，实验结果令人意外，包括GPT-4o等模型在处理长文生成任务时仍有很大改进空间。

关键观点2: LONGPROC基准包含6个不同的生成任务。

这些任务包括HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划等，这些任务旨在评估模型在整合分散信息和生成长输出方面的能力。

关键观点3: 实验任务设置涉及不同的数据集和难度级别。

实验中，模型需要执行一个详细的程序来生成输出，根据任务的输出长度，数据集会被分为500 tokens、2K tokens和8K tokens三个难度级别。

关键观点4: 实验结果及分析显示，即使是顶尖模型如GPT-4o，在长程序生成任务中也表现出显著的性能下降。

不同模型之间的差异明显，且模型表现跟任务类型也有关系。在某些需要处理更复杂信息和进行更长链推理的任务中，模型性能的下降幅度更大。

关键观点5: 这篇论文的一作是本科毕业于清华软件学院的Xi Ye（叶曦）。

目前他是普林斯顿大学语言与智能实验室的博士后研究员，并将从2025年7月开始加入阿尔伯塔大学担任助理教授。

文章预览

奇月发自凹非寺量子位 | 公众号 QbitAI 很多大模型的官方参数都声称自己可以输出长达 32K tokens 的内容，但这数字实际上是存在水分的？？最近，陈丹琦团队提出了一个全新的基准测试工具 LONGPROC ，专门用于检测长上下文模型处理复杂信息并生成回复的能力。实验结果有点令人意外，团队发现，包括GPT-4o等最先进的模型在内，尽管模型在常用长上下文回忆基准上表现出色，但在处理复杂的长文生成任务时仍有很大的改进空间。具体来说，测试的所有模型都声称自己上下文窗口大小超过32K tokens，但开源模型一般在2K tokens任务中就表现不佳，而GPT-4o等闭源模型在8K tokens任务中性能也明显下降。举例来说，让GPT-4o模型生成一个详细的旅行规划时，即使提供了相关的时间节点和直飞航班线路，在模型的生成结果中仍然出现了不存在的航班信息， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博