专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

字节联合复旦重磅推出 LayTextLLM!交错融合布局信息,文档理解能力再创新 SOTA!

我爱计算机视觉  · 公众号  ·  · 2024-08-02 12:45

文章预览

关注公众号,发现CV技术之美 本篇分享论文 LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding ,字节联合复旦重磅推出 LayTextLLM!交错融合布局信息,文档理解能力再创新SOTA! 论文地址:https://arxiv.org/pdf/2407.01976 代码链接:https://github.com/LayTextLLM/LayTextLLM 引言 在文档理解任务中,目前的主流方案普遍使用端到端的多模态大语言模型。但是,此类方法对图片的输入分辨率有很高的要求,因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。 文档理解作为text-rich的任务,实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此,利用成熟的OCR技术获得文字和布局(Layout)信息(即:文字坐标)并轻量级地扩展LLM,使其能够根据语义以及Layout信息来做预测。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览