文章预览
🐉 Loong一个 新颖的长上下文基准测试, 通过扩展多文档问题回答(QA)与现实场景对齐, 从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务,总体得分排序: Gemini-Pro1.5 (1000K) GPT-4o (128K) Claude3.5-Sonnet (200K) Claude3-Haiku (200K) Qwen2-72B-Instruct (128K) GLM4-9B-Chat (1000K) Kimi-Chat (200k) 四项评估任务的总体结果 。对于每项任务,左侧的指标代表平均分(0~100),而右侧的代表完美率(0~1)。 LLM在不同长度设置的四项评估任务上的性能。 对于每项任务,左侧的指标代表平均分(0~100),而右侧的指标代表完美率(0~1)。 Loong中四项评估任务的展示( ... 标记第 i 个文档的内容)。 a) Spotlight定位:定位证据。b) 比较:定位并比较证据。c) 聚类:定位并把证据聚类成组。d) 推理链:定位并沿着逻辑链进行推理 长上下文大模型RAG or Not? 尝试将RAG模块集
………………………………