文章预览
“ Multimodal Table Understanding ” 对于文档理解型任务,识别并理解文档中的表格内容至关重要,之前的表格理解方法需要把表格转换成文本在输入给模型,不仅费时费力,而且转换过程的损失会影响分析结果。 近日,中科院的研究者们发表了多模态表格理解大模型Table-LLaVA,通过直接从表格图像中提取关键信息,为下游问答、推理任务提供依据。通过在构建的在MMTab上微调,Table-LLaVA在23个评测任务上刷新了SOTA。 论文地址 :https://arxiv.org/pdf/2406.08100 Github地址 :https://github.com/SpursGoZmy/Table-LLaVA 摘要 先前的表格理解方法依赖于将表格转换为文本序列作为模型输入,但在某些情况下很难获得高质量的文本表格表示,而表格图像更易获取。因此,直接利用直观的视觉信息来理解表格是一个重要且紫急的挑战。本文提出了多模态表格理解问题,需要根据给定
………………………………