专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DocLLM: 用于多模态文档理解的布局敏感的生成语言模型 | ACL 2024

AI算法与图像处理 · 公众号 · · 2024-09-26 17:00

文章预览

本文简要介绍ACL 2024录用论文“DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding”的主要工作。文章提出了一种布局敏感的生成式大模型，通过对大模型进行轻量化的多模态拓展的方式，完成文档理解任务。在使用较少的计算资源情况下，文章提出的方法超越了同期的一些关注OCR下游任务的大语言模型。一、研究背景文档智能是指从布局丰富的文档中自动抽取信息并完成进一步处理的过程。尽管学术界已经进行了许多相关研究，但它的鲁棒性、泛化性等仍存在一定局限性。而随着大语言模型（LLM）的出现，其出色的泛化性能给人留下了深刻的印象，也有许多的研究者开始尝试使用LLM来解决文档智能的问题[1] [2][3]。然而，当时的许多相关工作都需要在LLM的基础上加入一个复杂的视觉编码器[4]，这带来了比较大的计算负担。因此， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

杭州交通918 · “感觉全世界的人都在这！”杭州市民傻眼：凌晨3点已人山人海，下雨都挡不住……

19 小时前

钱江晚报 · 太突然！著名相声演员去世

19 小时前

FM93交通之声 · 销量突然猛增，很多人趁这几天出手，店员透露：有人一次性省了3万

2 天前

杭州交通918 · 他突然宣布：正式告别…

2 天前

杭州日报 · 刚刚，抵达杭州！画风突变....

3 天前

滑州百事通 · 滑县这个村老人带上定制手环，“码”上回家！

7 月前

小莉帮忙 · 超量服用，致肾脏严重受损！这个“万能药”得慎用→

2 周前