专栏名称: 数薮智能
搜集、组织、学习、展示与大数据、自然语言处理和大语言模型相关的技术、方法、知识和成果
今天看啥  ›  专栏  ›  数薮智能

轻松集成,性能跃升:DocKylin打造高效视觉文档理解体验

数薮智能  · 公众号  ·  · 2025-01-01 21:44
    

文章预览

由于文档图像通常具有高分辨率、文本密集以及布局复杂等特性,当前的多模态大型语言模型(MLLM)在处理视觉文档理解(VDU)任务时面临着重大挑战。这些特性要求MLLM具备高水平的细节感知能力。然而,虽然提高输入分辨率可以增强细节感知能力,但也会导致视觉词元序列变长,从而增加计算成本并加重模型处理长上下文的能力负担。为应对上述挑战,华南理工大学联合华为云推出了面向文档的多模态大语言模型——DocKylin。经过一系列实验验证,DocKylin在众多VDU基准测试中均展现出了卓越的性能。同时,该文章所提出的视觉内容精简策略均无需参数且模块化,便于轻松集成到现有的多模态大语言模型中以实现性能提升。 原标题:DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming 论文链接: https://arxiv.org/abs/2406.19101 unse ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览