专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

mPLUG-DocOwl2: OCR-free多页文档理解新SOTA,单页视觉token仅324!

FightingCV  · 公众号  ·  · 2024-09-12 09:00

文章预览

关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→   FightingCV交流群 为了进行不依赖OCR的文档图片理解,目前 多模态大模型 主要通过增加图片的分辨率来提升文档问答的性能。然而,不断增加的图片分辨率也导致了视觉编码的token数量显著增加,一张A4大小的文档图片在LLM端往往消耗掉上千的token数量。这不仅导致了过高的显存占用,也大大增加了首包的时间,严重限制了其在多页文档理解方面的应用。 为了平衡多页文档理解场景中的问答效果和资源消耗, 阿里巴巴通义实验室mPLUG团队 近期提出mPLUG-DocOwl2( mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding ),具备多页文字解析,多页文档问答以及多页论文结构解析等能力, 在多页文档理解benchmark上达到OCR-free的新SOTA,并且每页文档图片仅消耗324token ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览