文章预览
LLM真的解决表格问答了吗? 该工作提出了新一代的表格问答评测基准(TableBench)。TableBench通过涵盖四大类表格问答能力(如事实核查、数值推理、数据分析和可视化),并深入到18个子领域,全面评估了模型在各类复杂表格数据应用场景的能力;该工作还引入了 TableInstruct,这是一个包含 20K 样本的大规模指令语料库,涵盖了三种不同的推理方法,为模型训练提供了丰富的数据支持;此外,该工作还基于开源模型训练了一系列的TableLLMs,促进表格问答社区发展。作者通过TableBench对30多个最新通用和代码大模型进行了系统评估,发现即使是最先进的模型,如 GPT-4,与人类性能相比仍有差距。这表明在表格任务的实际应用中,LLMs 仍有很大的提升空间。 论文链接: https://www.arxiv.org/abs/2408.09174 代码链接: https://github.com/TableBench/TableBench 榜单: https://tablebenc
………………………………