最新Loong LLM多文档问答评测：GPT-4o只排第二，垫底的竟是它？

PaperAgent · 公众号 · · 2024-06-30 19:25

文章预览

🐉 Loong一个新颖的长上下文基准测试，通过扩展多文档问题回答（QA）与现实场景对齐，从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务，总体得分排序： Gemini-Pro1.5 (1000K) GPT-4o (128K) Claude3.5-Sonnet (200K) Claude3-Haiku (200K) Qwen2-72B-Instruct (128K) GLM4-9B-Chat (1000K) Kimi-Chat (200k) 四项评估任务的总体结果。对于每项任务，左侧的指标代表平均分（0~100），而右侧的代表完美率（0~1）。 LLM在不同长度设置的四项评估任务上的性能。对于每项任务，左侧的指标代表平均分（0~100），而右侧的指标代表完美率（0~1）。 Loong中四项评估任务的展示（ ... 标记第 i 个文档的内容）。 a) Spotlight定位：定位证据。b) 比较：定位并比较证据。c) 聚类：定位并把证据聚类成组。d) 推理链：定位并沿着逻辑链进行推理长上下文大模型RAG or Not？尝试将RAG模块集 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

运维 · 花 5 年时间，21 岁开发者从地下室起步，成功打造自己的私有云业务！

6 小时前

InfoQ 架构头条 · 基于Java的无代码和低代码应用开发工具综述

2 天前

中水电 · 几内亚凯乐塔-苏阿皮蒂运维项目部举行凯乐塔水电站2号机组大修开工仪式

4 天前

中水电 · 几内亚凯乐塔-苏阿皮蒂运维项目部举行凯乐塔水电站2号机组大修开工仪式

4 天前

独夫之心观天下 · 问答环节（川普政策、新书问题解答、不懂中国的西方人）

3 周前