专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

字节联合复旦推出LayTextLLM！交错融合布局信息，文档理解能力再创新SOTA

PaperWeekly · 公众号 · 科研 · 2024-08-07 12:49

文章预览

©PaperWeekly 原创 · 作者 | 余海洋单位 | 复旦大学博士生研究方向 | 大语言模型引言在文档理解任务中，目前的主流方案普遍使用端到端的多模态大语言模型。但是，此类方法对图片的输入分辨率有很高的要求，因此需要较强的视觉基座。这也成为了多模态大语言模型（MLLM）在文档理解任务中的瓶颈。文档理解作为 text-rich 的任务，实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此，利用成熟的 OCR 技术获得文字和布局（Layout）信息（即：文字坐标）并轻量级地扩展 LLM，使其能够根据语义以及 Layout 信息来做预测。该方案也是解决文档理解的一条可行道路 [1] ，即 Layouts as “Lightweight Visual Information”。论文标题： LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding 论文地址 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

弗雷赛斯 · 优秀国自然技术路线图分享和制作

2 天前

弗雷赛斯 · 最高影响因子51.27，价格却只有市场价1/2！弗雷赛斯“润色”将继续不忘初心！

2 天前

研之成理 · 佛山大学陈永教授团队：碳基锌离子电容器研究进展

3 天前

研之成理 · 电子科技大学材料表面科学研究中心长期招聘博士后

3 天前

小张聊科研 · 国自然申请|研究科研热点“代谢重编程”，国内外研究进展梳理

3 天前

人力资源管理 · 成都“牵手门”事件再次反转，太惊人了！

3 月前

环境人Environmentor · 中国科学院生态环境研究中心2025年科技和支撑岗位招聘启事

6 天前