LLM真的解决表格问答了吗？全面覆盖复杂应用场景的新一代表格问答测试基准TableBench

arXiv每日学术速递 · 公众号 · · 2024-09-28 14:41

文章预览

LLM真的解决表格问答了吗？该工作提出了新一代的表格问答评测基准(TableBench)。TableBench通过涵盖四大类表格问答能力（如事实核查、数值推理、数据分析和可视化），并深入到18个子领域，全面评估了模型在各类复杂表格数据应用场景的能力；该工作还引入了 TableInstruct，这是一个包含 20K 样本的大规模指令语料库，涵盖了三种不同的推理方法，为模型训练提供了丰富的数据支持；此外，该工作还基于开源模型训练了一系列的TableLLMs，促进表格问答社区发展。作者通过TableBench对30多个最新通用和代码大模型进行了系统评估，发现即使是最先进的模型，如 GPT-4，与人类性能相比仍有差距。这表明在表格任务的实际应用中，LLMs 仍有很大的提升空间。论文链接： https://www.arxiv.org/abs/2408.09174 代码链接： https://github.com/TableBench/TableBench 榜单: https://tablebenc ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博