文章预览
0、前言 本文和之前的LongContext测试一样,是我个人自力进行的测试。测试的代码和数据开源,供大家复现和拓展。 开源地址: https://github.com/SomeoneKong/llm_tool_test_202411 之前的LongContext测试问题缺乏实际应用中的代表性,所以这次是一个更加贴近实际实际LLM应用中可能会涉及的场景,数据多样性也进行了改进。 本次的测试的能力要求是综合性的,实际不止限于单纯的tool调用 ,还涉及到: 复杂指令理解和跟随能力 4k-8k左右context的能力 能够先产生一段回答,在过程中触发调用tool的能力(有些厂家似乎仍然还没实现该功能) 能够稳定地区分生成json和产生tool调用 本文V0.1只是测试的一个阶段性版本,因为目前发现的问题已经太多。而且相对完整的覆盖所有常见中高端模型的工作量太大。所以本测试大概会分几次更新,中间会加入其他模型的测试结果,
………………………………