文章预览
本文简要介绍ACL 2024录用论文“DocLLM: A
Layout-Aware Generative Language Model for Multimodal Document Understanding”的主要工作。 文章提出了一种布局敏感的生成式大模型,通过对大模型进行轻量化的多模态拓展的方式,完成文档理解任务。 在使用较少的计算资源情况下,文章提出的方法超越了同期的一些关注OCR下游任务的大语言模型。 一、研究背景 文档智能是指从布局丰富的文档中自动抽取信息并完成进一步处理的过程。尽管学术界已经进行了许多相关研究,但它的鲁棒性、泛化性等仍存在一定局限性。而随着大语言模型(LLM)的出现,其出色的泛化性能给人留下了深刻的印象,也有许多的研究者开始尝试使用LLM来解决文档智能的问题[1] [2][3]。然而,当时的许多相关工作都需要在LLM的基础上加入一个复杂的视觉编码器[4],这带来了比较大的计算负担。因此,
………………………………