LLM tool功能横向测试 V0.1：不容乐观的现实

孔某人的低维认知 · 公众号 · · 2024-11-18 17:47

文章预览

0、前言本文和之前的LongContext测试一样，是我个人自力进行的测试。测试的代码和数据开源，供大家复现和拓展。开源地址： https://github.com/SomeoneKong/llm_tool_test_202411 之前的LongContext测试问题缺乏实际应用中的代表性，所以这次是一个更加贴近实际实际LLM应用中可能会涉及的场景，数据多样性也进行了改进。本次的测试的能力要求是综合性的，实际不止限于单纯的tool调用，还涉及到：复杂指令理解和跟随能力 4k-8k左右context的能力能够先产生一段回答，在过程中触发调用tool的能力（有些厂家似乎仍然还没实现该功能）能够稳定地区分生成json和产生tool调用本文V0.1只是测试的一个阶段性版本，因为目前发现的问题已经太多。而且相对完整的覆盖所有常见中高端模型的工作量太大。所以本测试大概会分几次更新，中间会加入其他模型的测试结果， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博