阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

量子位 · 公众号 · AI · 2024-09-13 18:23

文章预览

mPLUG团队投稿量子位 | 公众号 QbitAI 高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。最新多模态大模型 mPLUG-DocOwl 2 ，仅以324个视觉token表示单个文档图片，在多个多页文档问答Benchmark上超越此前SOTA结果。并且在A100-80G单卡条件下，做到分辨率为1653x2339的文档图片一次性最多支持输入60页！ △ 单个A100-80G最多能支持文档图片(分辨率=1653x2339)的数量以及首包时间 mPLUG-DocOwl是利用多模态大模型进行OCR-free文档理解的一系列前沿探索工作。 DocOwl 1.0首次提出基于多模态大模型进行文档理解方面的多任务指令微调； UReader首次提出利用切图的策略来处理高清文档图片，成为目前高清图片理解的主流方案； DocOwl 1.5提出统一结构学习，将多个bechmark的开源效果提升超过10个点，成为多模态大模型在文档理解方面的主要对比基准。随着文档图片的分辨率以 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人工智能那点事 · 因“高考誓师演讲”被网暴女孩，已考入中国人大！本人最新发声

昨天

爱可可-爱生活 · 自对数演化解码 (SLED) 是一种新的解码框架，通过巧妙地利用-20241107051037

2 天前

爱可可-爱生活 · [LG]《How many classifiers do we -20241105053135

4 天前

宝玉xp · 转：2019年 Uber软件工程师Philip Wang 利用-20241104134822

5 天前

量子位 · o1满血版泄露！奥数题图片推理手拿把掐，奥特曼上线剧透o2

6 天前

杭州发布 · 南京回杭州，开了7个多小时！返程最新提醒

1 月前