中科院发表Table-LLaVA，表格理解大模型，刷新23项SOTA

灵度智能 · 公众号 · · 2024-07-25 12:10

文章预览

“ Multimodal Table Understanding ” 对于文档理解型任务，识别并理解文档中的表格内容至关重要，之前的表格理解方法需要把表格转换成文本在输入给模型，不仅费时费力，而且转换过程的损失会影响分析结果。近日，中科院的研究者们发表了多模态表格理解大模型Table-LLaVA，通过直接从表格图像中提取关键信息，为下游问答、推理任务提供依据。通过在构建的在MMTab上微调，Table-LLaVA在23个评测任务上刷新了SOTA。论文地址：https://arxiv.org/pdf/2406.08100 Github地址：https://github.com/SpursGoZmy/Table-LLaVA 摘要先前的表格理解方法依赖于将表格转换为文本序列作为模型输入，但在某些情况下很难获得高质量的文本表格表示，而表格图像更易获取。因此，直接利用直观的视觉信息来理解表格是一个重要且紫急的挑战。本文提出了多模态表格理解问题，需要根据给定 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【据称#美国限制英伟达向中东销售AI芯片# 英伟达和AMD股价在-20240531074200

9 月前

点点出海 · Take-Two旗下游戏发行品牌Private Division将被关闭或出售！

9 月前

中国航务周刊 · 【运力周报】最新中国主要外贸航线运力投放周报发布（2024年第16周-第27周）

8 月前

中国医疗器械行业协会 · 【行业新闻】海南真实世界数据应用试点工作取得阶段性成效

8 月前

维科网光伏 · 官宣！又一光伏组件龙头拟H股上市

8 月前