专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

字节联合复旦推出LayTextLLM!交错融合布局信息,文档理解能力再创新SOTA

PaperWeekly  · 公众号  · 科研  · 2024-08-07 12:49

文章预览

©PaperWeekly 原创 · 作者 |  余海洋 单位 |  复旦大学博士生 研究方向 |  大语言模型 引言 在文档理解任务中,目前的主流方案普遍使用端到端的多模态大语言模型。但是,此类方法对图片的输入分辨率有很高的要求,因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。 文档理解作为 text-rich 的任务,实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此,利用成熟的 OCR 技术获得文字和布局(Layout)信息(即:文字坐标)并轻量级地扩展 LLM,使其能够根据语义以及 Layout 信息来做预测。该方案也是解决文档理解的一条可行道路 [1] ,即 Layouts as “Lightweight Visual Information”。 论文标题: LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding 论文地址 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览