专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

新智元  · 公众号  · AI  · 2024-08-12 12:47
    

文章预览

   新智元报道   编辑:LRST 好困 【新智元导读】 Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。 最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。 绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。 然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。 针对这一挑战, 华中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览