文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|Text-rich Document Understanding, Text-rich Image Understanding DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding 2024-08-27|SCUT, Alibaba Group| 🟡 http://arxiv.org/abs/2408.15045v1 概述 文本丰富的文档理解(TDU) 是指对 包含大量文本信息的文档 进行分析和理解。随着大型语言模型(LLMs)的快速发展,其在TDU领域的应用越来越广泛,成为解决该领域挑战的有力工具。本文提出了一种高效有效的多模态扩展模型——DocLayLLM,旨在改善TDU的性能。 通过整合视觉补丁令牌和2D位置信息,并利用LLMs本身对文档内容进行编码 ,DocLayLLM充分利用了LLMs的文档理解能力,增强了OCR信息的感知。此模型的训练不仅仅限于传统的方法, 还引入了链式思维(CoT)
………………………………