专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

量子位  · 公众号  · AI  · 2025-01-15 19:36
    

主要观点总结

这篇文章介绍了陈丹琦团队提出的全新基准测试工具LONGPROC,用于检测长上下文模型处理复杂信息并生成回复的能力。实验结果显示,包括GPT-4o等最先进的模型在处理长文生成任务时仍有很大改进空间。文章还详细描述了LONGPROC基准包含的6个生成任务以及实验任务设置和实验结果分析。

关键观点总结

关键观点1: 陈丹琦团队提出了全新的基准测试工具LONGPROC,用于检测长上下文模型的能力。

LONGPROC专门用于检测模型处理复杂信息并生成回复的能力,实验结果令人意外,包括GPT-4o等模型在处理长文生成任务时仍有很大改进空间。

关键观点2: LONGPROC基准包含6个不同的生成任务。

这些任务包括HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划等,这些任务旨在评估模型在整合分散信息和生成长输出方面的能力。

关键观点3: 实验任务设置涉及不同的数据集和难度级别。

实验中,模型需要执行一个详细的程序来生成输出,根据任务的输出长度,数据集会被分为500 tokens、2K tokens和8K tokens三个难度级别。

关键观点4: 实验结果及分析显示,即使是顶尖模型如GPT-4o,在长程序生成任务中也表现出显著的性能下降。

不同模型之间的差异明显,且模型表现跟任务类型也有关系。在某些需要处理更复杂信息和进行更长链推理的任务中,模型性能的下降幅度更大。

关键观点5: 这篇论文的一作是本科毕业于清华软件学院的Xi Ye(叶曦)。

目前他是普林斯顿大学语言与智能实验室的博士后研究员,并将从2025年7月开始加入阿尔伯塔大学担任助理教授。


文章预览

奇月 发自 凹非寺 量子位 | 公众号 QbitAI 很多大模型的官方参数都声称自己可以输出长达 32K tokens 的内容,但这数字实际上是存在水分的?? 最近,陈丹琦团队提出了一个全新的基准测试工具 LONGPROC ,专门用于检测长上下文模型 处理复杂信息并生成回复 的能力。 实验结果有点令人意外,团队发现,包括GPT-4o等最先进的模型在内,尽管模型在常用长上下文 回忆 基准上表现出色,但在处理复杂的长文 生成 任务时仍有很大的改进空间。 具体来说,测试的所有模型都声称自己上下文窗口大小超过32K tokens,但开源模型一般在2K tokens任务中就表现不佳,而GPT-4o等闭源模型在8K tokens任务中性能也明显下降。 举例来说,让GPT-4o模型生成一个 详细的旅行规划 时,即使提供了相关的时间节点和直飞航班线路,在模型的生成结果中仍然出现了不存在的航班信息, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览