主要观点总结
本文是关于长上下文测试方案的更新报告,测试了各大公司LLM模型在长文本处理方面的能力。
关键观点总结
关键观点1: 测试方案概述
关键观点2: 测试内容
关键观点3: 测试结果
关键观点4: 更新总结
关键观点5: 问题反馈和改进建议
文章预览
本测试已经更新过几轮了,大家相对已经熟悉,所以先贴更新结果,详细说明放在结果之后。 本次更新总结: 本次更新开始废弃32k测试,因为: 按照本文的测试方式来看, 各家的32k效果大都已经不错 。虽然还有一些跟不上队的厂家,但每次只是为了打脸它们没有意思,这个榜单已经没有太多区分度。 支持32k context的模型太多, 工作量较大 ,砍掉这个可以显著减少我的工作量。 也许未来会考虑追加64k榜单。 对于国内的模型基本都重新测了一下,看模型性能是否有变化,然后发现有几家的模型效果变差了。 增加了成功率的95%置信区间 ,方便读者了解由于采样次数有限带来的数据波动大小的影响。 V1.20 新增了Llama 3.1 70B模型的私有部署作为对比 新增了智谱的glm-4-long、glm-4-plus 新增了qwen-plus-0806模型,效果相对于前代模型大幅提升 更新了OpenAI的gpt-4
………………………………