文章预览
TLDR 本文构造了一个比大海捞针稍难的长上下文测试方案,并对比了目前支持128k以上的上下文的闭源API LLM模型。 仅从这个很狭隘的测试来看,海外头部三家厂商在长上下文上还是领先于国内的。 本文的测试代码框架已经开源,方便大家测试其他数据。 本文没有得到任何厂商赞助 ,累计花了2700RMB充值各家平台。 我也是有点测不起了。 Github地址: https://github.com/SomeoneKong/llm_long_context_bench202405/tree/bench_128k_v1 0、前言 最近一段时间各家基座LLM爆发了一波更新,>=128k的long context能力已经逐渐普及。而目前对于long context的测试就只有大海捞针,其实大海捞针只是一个最简单的测试,理论上RAG的召回过程做好了也一样能解决。 我也是看到别人转的一个测试之后有些手痒,所以尝试将其更完善一些,由此作为一个横向对比的方式,(希望国内各家基座LLM厂商
………………………………