专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
今天看啥  ›  专栏  ›  孔某人的低维认知

LLM tool功能横向测试 V0.5:不容乐观的现实

孔某人的低维认知  · 公众号  ·  · 2024-11-19 16:34
    

文章预览

V0.5:更新了Claude、Gemini、商汤、Minimax、Llama 3.1等模型。 0、前言 本文和之前的LongContext测试一样,是我个人自力进行的测试。测试的代码和数据开源,供大家复现和拓展。 开源地址: https://github.com/SomeoneKong/llm_tool_test_202411 之前的LongContext测试问题缺乏实际应用中的代表性,所以这次是一个更加贴近实际实际LLM应用中可能会涉及的场景,数据多样性也进行了改进。 本次的测试的能力要求是综合性的,实际不止限于单纯的tool调用 ,还涉及到: 复杂指令理解和跟随能力 4k-8k左右context的能力 能够先产生一段回答,在过程中触发调用tool的能力(有些厂家似乎仍然还没实现该功能) 能够稳定地区分生成json和产生tool调用 2024.8横向对比各家LLM的Long Context 【V1.20】 1、测试方案说明 首先得说,这个测试是比较难的 。一些模型的表现没有大家自己使用的时候 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览