专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

字节联合复旦重磅推出 LayTextLLM！交错融合布局信息，文档理解能力再创新 SOTA！

我爱计算机视觉 · 公众号 · · 2024-08-02 12:45

文章预览

关注公众号，发现CV技术之美本篇分享论文 LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding ，字节联合复旦重磅推出 LayTextLLM！交错融合布局信息，文档理解能力再创新SOTA！论文地址：https://arxiv.org/pdf/2407.01976 代码链接：https://github.com/LayTextLLM/LayTextLLM 引言在文档理解任务中，目前的主流方案普遍使用端到端的多模态大语言模型。但是，此类方法对图片的输入分辨率有很高的要求，因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。文档理解作为text-rich的任务，实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此，利用成熟的OCR技术获得文字和布局（Layout）信息(即：文字坐标)并轻量级地扩展LLM，使其能够根据语义以及Layout信息来做预测。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博