专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

量子位  · 公众号  · AI  · 2024-09-13 18:23

文章预览

mPLUG团队 投稿 量子位 | 公众号 QbitAI 高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。 最新多模态大模型 mPLUG-DocOwl 2 ,仅以324个视觉token表示单个文档图片,在多个多页文档问答Benchmark上超越此前SOTA结果。 并且在A100-80G单卡条件下,做到分辨率为1653x2339的文档图片一次性最多支持输入60页! △ 单个A100-80G最多能支持文档图片(分辨率=1653x2339)的数量以及首包时间 mPLUG-DocOwl是利用多模态大模型进行OCR-free文档理解的一系列前沿探索工作。 DocOwl 1.0首次提出基于多模态大模型进行文档理解方面的多任务指令微调; UReader首次提出利用切图的策略来处理高清文档图片,成为目前高清图片理解的主流方案; DocOwl 1.5提出统一结构学习,将多个bechmark的开源效果提升超过10个点,成为多模态大模型在文档理解方面的主要对比基准。 随着文档图片的分辨率以 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览