专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
今天看啥  ›  专栏  ›  孔某人的低维认知

LLM tool功能横向测试 V0.1:不容乐观的现实

孔某人的低维认知  · 公众号  ·  · 2024-11-18 17:47

文章预览

0、前言 本文和之前的LongContext测试一样,是我个人自力进行的测试。测试的代码和数据开源,供大家复现和拓展。 开源地址: https://github.com/SomeoneKong/llm_tool_test_202411 之前的LongContext测试问题缺乏实际应用中的代表性,所以这次是一个更加贴近实际实际LLM应用中可能会涉及的场景,数据多样性也进行了改进。 本次的测试的能力要求是综合性的,实际不止限于单纯的tool调用 ,还涉及到: 复杂指令理解和跟随能力 4k-8k左右context的能力 能够先产生一段回答,在过程中触发调用tool的能力(有些厂家似乎仍然还没实现该功能) 能够稳定地区分生成json和产生tool调用 本文V0.1只是测试的一个阶段性版本,因为目前发现的问题已经太多。而且相对完整的覆盖所有常见中高端模型的工作量太大。所以本测试大概会分几次更新,中间会加入其他模型的测试结果, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览