专栏名称: 灵度智能
致力于提供优质的AI服务。
目录
相关文章推荐
今天看啥  ›  专栏  ›  灵度智能

中科院发表Table-LLaVA,表格理解大模型,刷新23项SOTA

灵度智能  · 公众号  ·  · 2024-07-25 12:10
    

文章预览

“ Multimodal Table Understanding ” 对于文档理解型任务,识别并理解文档中的表格内容至关重要,之前的表格理解方法需要把表格转换成文本在输入给模型,不仅费时费力,而且转换过程的损失会影响分析结果。 近日,中科院的研究者们发表了多模态表格理解大模型Table-LLaVA,通过直接从表格图像中提取关键信息,为下游问答、推理任务提供依据。通过在构建的在MMTab上微调,Table-LLaVA在23个评测任务上刷新了SOTA。 论文地址 :https://arxiv.org/pdf/2406.08100 Github地址 :https://github.com/SpursGoZmy/Table-LLaVA 摘要 先前的表格理解方法依赖于将表格转换为文本序列作为模型输入,但在某些情况下很难获得高质量的文本表格表示,而表格图像更易获取。因此,直接利用直观的视觉信息来理解表格是一个重要且紫急的挑战。本文提出了多模态表格理解问题,需要根据给定 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览