专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI算法与图像处理

DocLLM: 用于多模态文档理解的布局敏感的生成语言模型 | ACL 2024

AI算法与图像处理  · 公众号  ·  · 2024-09-26 17:00

文章预览

本文简要介绍ACL 2024录用论文“DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding”的主要工作。 文章提出了一种布局敏感的生成式大模型,通过对大模型进行轻量化的多模态拓展的方式,完成文档理解任务。 在使用较少的计算资源情况下,文章提出的方法超越了同期的一些关注OCR下游任务的大语言模型。 一、研究背景 文档智能是指从布局丰富的文档中自动抽取信息并完成进一步处理的过程。尽管学术界已经进行了许多相关研究,但它的鲁棒性、泛化性等仍存在一定局限性。而随着大语言模型(LLM)的出现,其出色的泛化性能给人留下了深刻的印象,也有许多的研究者开始尝试使用LLM来解决文档智能的问题[1] [2][3]。然而,当时的许多相关工作都需要在LLM的基础上加入一个复杂的视觉编码器[4],这带来了比较大的计算负担。因此, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览