LLM tool功能横向测试 V0.5：不容乐观的现实

孔某人的低维认知 · 公众号 · · 2024-11-19 16:34

文章预览

V0.5：更新了Claude、Gemini、商汤、Minimax、Llama 3.1等模型。 0、前言本文和之前的LongContext测试一样，是我个人自力进行的测试。测试的代码和数据开源，供大家复现和拓展。开源地址： https://github.com/SomeoneKong/llm_tool_test_202411 之前的LongContext测试问题缺乏实际应用中的代表性，所以这次是一个更加贴近实际实际LLM应用中可能会涉及的场景，数据多样性也进行了改进。本次的测试的能力要求是综合性的，实际不止限于单纯的tool调用，还涉及到：复杂指令理解和跟随能力 4k-8k左右context的能力能够先产生一段回答，在过程中触发调用tool的能力（有些厂家似乎仍然还没实现该功能）能够稳定地区分生成json和产生tool调用 2024.8横向对比各家LLM的Long Context 【V1.20】 1、测试方案说明首先得说，这个测试是比较难的。一些模型的表现没有大家自己使用的时候 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博