LongBench v2：评估长文本+o1？

GLM大模型 · 公众号 · · 2024-12-20 16:01

文章预览

评估大模型在真实世界、长文本、多任务中的「深度理解与推理」能力　近年来，长文本大语言模型的研究取得了显著进展，模型的上下文窗口长度已经从最初的 8k 扩展到 128k 甚至 1M 个 tokens。然而，一个关键的问题仍然存在：这些模型是否真正理解了它们所处理的长文本？换句话说，它们是否能够基于长文本中的信息进行深入的理解、学习和推理？　　为了回答这个问题，并推动长文本模型在深度理解与推理上的进步，清华大学和智谱的研究团队推出了 LongBench v2 ，一个专为评估 LLMs 在真实世界长文本多任务中的深度理解和推理能力而设计的基准测试。我们相信LongBench v2将推动探索scaling inference-time compute（例如 o1 模型）如何帮助解决长文本场景中的深度理解和推理问题。　　特点 LongBench v2 相比于现有的长文本理解基准测试，具有以 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科技美学官方 · 3699到手，vivo X200 Ultra/X200s发布丨专业V单？

19 小时前

笔记侠 · 刘强东：高手，都是在不断解决问题

18 小时前

张栋伟 · 振奋人心！传华为已经开发出先进AI芯片

19 小时前

张栋伟 · 振奋人心！传华为已经开发出先进AI芯片

19 小时前

小完子美妆 · 上美拟设立合资公司打造新品牌欧莱雅Q1北亚区销售同增4.4% 首个以油养肤团标发布天猫简化改版店铺页面微信小店上线达人广场

昨天

小完子美妆 · 上美拟设立合资公司打造新品牌欧莱雅Q1北亚区销售同增4.4% 首个以油养肤团标发布天猫简化改版店铺页面微信小店上线达人广场

昨天

新闻大连 · 无论在何方，大海是故乡~

3 天前

中国舞台美术学会 · 沈倩：京剧《穆桂英再挂帅》舞台——传统与科技的交响

9 月前

体外诊断价值圈 · 刚刚！IVD上市公司突遭ST

4 月前