字节联合复旦重磅推出LayTextLLM！交错融合布局信息，文档理解能力再创新SOTA！

CVer · 公众号 · · 2024-08-08 23:59

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！引言在文档理解任务中，目前的主流方案普遍使用端到端的多模态大语言模型。但是，此类方法对图片的输入分辨率有很高的要求，因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。文档理解作为text-rich的任务，实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此，利用成熟的OCR技术获得文字和布局（Layout）信息(即：文字坐标)并轻量级地扩展LLM，使其能够根据语义以及Layout信息来做预测。该 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

植物星球 · 有爱心的种子终于成熟了，现在我们赠送两粒

昨天

植物星球 · 这是什么果子，初夏能开香甜的白花

5 天前

植物星球 · 50年心血珍藏，呈现旖旎花之王国，「平凡社」镇社之作

5 天前

知产力 · 从美欧英印多个热点案例，探究各国标准必要专利禁令救济裁判思路

6 天前

知产力 · 从美欧英印多个热点案例，探究各国标准必要专利禁令救济裁判思路

6 天前

妇产科网 · 今日 19:30 | 专家大查房：子宫肌瘤合并不孕的综合应对策略

2 周前