2024.5横向对比各家LLM的Long Context（32k篇）

孔某人的低维认知 · 公众号 · · 2024-05-28 22:12

文章预览

TLDR 本文是 Long Context横向对比的第二篇，前面有128k篇。本文构造了一个比大海捞针稍难的长上下文测试方案，并对比了目前支持32k以上的上下文的闭源API LLM模型。仅从这个很狭隘的测试来看，海外头部三家厂商在长上下文上还是领先于国内的。本文的测试代码框架已经开源，方便大家测试其他数据。本系列没有得到任何厂商赞助，两期累计花了4200RMB充值各家平台。上篇： 2024.5横向对比各家LLM的Long Context（128k篇） Github地址： https://github.com/SomeoneKong/llm_long_context_bench202405/tree/bench_32k_v1 0、前言（本节同上文）最近一段时间各家基座LLM爆发了一波更新，>=128k的long context能力已经逐渐普及。而目前对于long context的测试就只有大海捞针，其实大海捞针只是一个最简单的测试，理论上RAG的召回过程做好了也一样能解决。我也是看到别人转的一个测试之 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博