专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

178-B1｜文本丰富文档理解，文本丰富图像理解；探索合成数据取代真实数据的潜力；脑机融合学习以增强OOD泛化能力｜Wed

AIGC Research · 公众号 · · 2024-08-28 18:00

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Multi-modal｜Text-rich Document Understanding, Text-rich Image Understanding DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding 2024-08-27｜SCUT, Alibaba Group｜ 🟡 http://arxiv.org/abs/2408.15045v1 概述文本丰富的文档理解（TDU）是指对包含大量文本信息的文档进行分析和理解。随着大型语言模型（LLMs）的快速发展，其在TDU领域的应用越来越广泛，成为解决该领域挑战的有力工具。本文提出了一种高效有效的多模态扩展模型——DocLayLLM，旨在改善TDU的性能。通过整合视觉补丁令牌和2D位置信息，并利用LLMs本身对文档内容进行编码，DocLayLLM充分利用了LLMs的文档理解能力，增强了OCR信息的感知。此模型的训练不仅仅限于传统的方法，还引入了链式思维（CoT） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博