专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
目录
相关文章推荐
今天看啥  ›  专栏  ›  孔某人的低维认知

2024.8横向对比各家LLM的Long Context 【V1.20】

孔某人的低维认知  · 公众号  ·  · 2024-08-30 16:05

主要观点总结

本文是关于长上下文测试方案的更新报告,测试了各大公司LLM模型在长文本处理方面的能力。

关键观点总结

关键观点1: 测试方案概述


关键观点2: 测试内容


关键观点3: 测试结果


关键观点4: 更新总结


关键观点5: 问题反馈和改进建议




文章预览

本测试已经更新过几轮了,大家相对已经熟悉,所以先贴更新结果,详细说明放在结果之后。 本次更新总结: 本次更新开始废弃32k测试,因为: 按照本文的测试方式来看, 各家的32k效果大都已经不错 。虽然还有一些跟不上队的厂家,但每次只是为了打脸它们没有意思,这个榜单已经没有太多区分度。 支持32k context的模型太多, 工作量较大 ,砍掉这个可以显著减少我的工作量。 也许未来会考虑追加64k榜单。 对于国内的模型基本都重新测了一下,看模型性能是否有变化,然后发现有几家的模型效果变差了。 增加了成功率的95%置信区间 ,方便读者了解由于采样次数有限带来的数据波动大小的影响。 V1.20 新增了Llama 3.1 70B模型的私有部署作为对比 新增了智谱的glm-4-long、glm-4-plus 新增了qwen-plus-0806模型,效果相对于前代模型大幅提升 更新了OpenAI的gpt-4 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览