今天看啥  ›  专栏  ›  GLM大模型

LongBench v2:评估长文本+o1?

GLM大模型  · 公众号  ·  · 2024-12-20 16:01
    

文章预览

评估大模型在真实世界、长文本、多任务中的「深度理解与推理」能力   近年来,长文本大语言模型的研究取得了显著进展,模型的上下文窗口长度已经从最初的 8k 扩展到 128k 甚至 1M 个 tokens。然而,一个关键的问题仍然存在: 这些模型是否真正理解了它们所处理的长文本?换句话说,它们是否能够基于长文本中的信息进行深入的理解、学习和推理?     为了回答这个问题,并推动长文本模型在深度理解与推理上的进步,清华大学和智谱的研究团队推出了  LongBench v2 ,一个专为评估 LLMs 在 真实世界长文本多任务中的深度理解和推理能力 而设计的基准测试。 我们相信LongBench v2将推动 探索scaling inference-time compute(例如 o1 模型)如何帮助解决长文本场景中的深度理解和推理问题。     特点 LongBench v2 相比于现有的长文本理解基准测试,具有以 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览