2024.8横向对比各家LLM的Long Context 【V1.20】

孔某人的低维认知 · 公众号 · · 2024-08-30 16:05

主要观点总结

本文是关于长上下文测试方案的更新报告，测试了各大公司LLM模型在长文本处理方面的能力。

关键观点总结

关键观点1: 测试方案概述

关键观点2: 测试内容

关键观点3: 测试结果

关键观点4: 更新总结

关键观点5: 问题反馈和改进建议

文章预览

本测试已经更新过几轮了，大家相对已经熟悉，所以先贴更新结果，详细说明放在结果之后。本次更新总结：本次更新开始废弃32k测试，因为：按照本文的测试方式来看，各家的32k效果大都已经不错。虽然还有一些跟不上队的厂家，但每次只是为了打脸它们没有意思，这个榜单已经没有太多区分度。支持32k context的模型太多，工作量较大，砍掉这个可以显著减少我的工作量。也许未来会考虑追加64k榜单。对于国内的模型基本都重新测了一下，看模型性能是否有变化，然后发现有几家的模型效果变差了。增加了成功率的95%置信区间，方便读者了解由于采样次数有限带来的数据波动大小的影响。 V1.20 新增了Llama 3.1 70B模型的私有部署作为对比新增了智谱的glm-4-long、glm-4-plus 新增了qwen-plus-0806模型，效果相对于前代模型大幅提升更新了OpenAI的gpt-4 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博