专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

最新Loong LLM多文档问答评测:GPT-4o只排第二,垫底的竟是它?

PaperAgent  · 公众号  ·  · 2024-06-30 19:25

文章预览

🐉 Loong一个 新颖的长上下文基准测试, 通过扩展多文档问题回答(QA)与现实场景对齐, 从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务,总体得分排序: Gemini-Pro1.5 (1000K) GPT-4o (128K) Claude3.5-Sonnet (200K) Claude3-Haiku (200K) Qwen2-72B-Instruct (128K) GLM4-9B-Chat (1000K)  Kimi-Chat (200k)  四项评估任务的总体结果 。对于每项任务,左侧的指标代表平均分(0~100),而右侧的代表完美率(0~1)。 LLM在不同长度设置的四项评估任务上的性能。 对于每项任务,左侧的指标代表平均分(0~100),而右侧的指标代表完美率(0~1)。 Loong中四项评估任务的展示( ... 标记第 i 个文档的内容)。 a) Spotlight定位:定位证据。b) 比较:定位并比较证据。c) 聚类:定位并把证据聚类成组。d) 推理链:定位并沿着逻辑链进行推理 长上下文大模型RAG or Not? 尝试将RAG模块集 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览