专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

LLM真的解决表格问答了吗?全面覆盖复杂应用场景的新一代表格问答测试基准TableBench

arXiv每日学术速递  · 公众号  ·  · 2024-09-28 14:41

文章预览

LLM真的解决表格问答了吗? 该工作提出了新一代的表格问答评测基准(TableBench)。TableBench通过涵盖四大类表格问答能力(如事实核查、数值推理、数据分析和可视化),并深入到18个子领域,全面评估了模型在各类复杂表格数据应用场景的能力;该工作还引入了 TableInstruct,这是一个包含 20K 样本的大规模指令语料库,涵盖了三种不同的推理方法,为模型训练提供了丰富的数据支持;此外,该工作还基于开源模型训练了一系列的TableLLMs,促进表格问答社区发展。作者通过TableBench对30多个最新通用和代码大模型进行了系统评估,发现即使是最先进的模型,如 GPT-4,与人类性能相比仍有差距。这表明在表格任务的实际应用中,LLMs 仍有很大的提升空间。 论文链接: https://www.arxiv.org/abs/2408.09174 代码链接: https://github.com/TableBench/TableBench 榜单:  https://tablebenc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览