专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

178-B1|文本丰富文档理解,文本丰富图像理解;探索合成数据取代真实数据的潜力;脑机融合学习以增强OOD泛化能力|Wed

AIGC Research  · 公众号  ·  · 2024-08-28 18:00

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|Text-rich Document Understanding, Text-rich Image Understanding DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding 2024-08-27|SCUT, Alibaba Group| 🟡 http://arxiv.org/abs/2408.15045v1 概述 文本丰富的文档理解(TDU) 是指对 包含大量文本信息的文档 进行分析和理解。随着大型语言模型(LLMs)的快速发展,其在TDU领域的应用越来越广泛,成为解决该领域挑战的有力工具。本文提出了一种高效有效的多模态扩展模型——DocLayLLM,旨在改善TDU的性能。 通过整合视觉补丁令牌和2D位置信息,并利用LLMs本身对文档内容进行编码 ,DocLayLLM充分利用了LLMs的文档理解能力,增强了OCR信息的感知。此模型的训练不仅仅限于传统的方法, 还引入了链式思维(CoT) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览