轻松集成，性能跃升：DocKylin打造高效视觉文档理解体验

数薮智能 · 公众号 · · 2025-01-01 21:44

文章预览

由于文档图像通常具有高分辨率、文本密集以及布局复杂等特性，当前的多模态大型语言模型（MLLM）在处理视觉文档理解（VDU）任务时面临着重大挑战。这些特性要求MLLM具备高水平的细节感知能力。然而，虽然提高输入分辨率可以增强细节感知能力，但也会导致视觉词元序列变长，从而增加计算成本并加重模型处理长上下文的能力负担。为应对上述挑战，华南理工大学联合华为云推出了面向文档的多模态大语言模型——DocKylin。经过一系列实验验证，DocKylin在众多VDU基准测试中均展现出了卓越的性能。同时，该文章所提出的视觉内容精简策略均无需参数且模块化，便于轻松集成到现有的多模态大语言模型中以实现性能提升。原标题：DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming 论文链接： https://arxiv.org/abs/2406.19101 unse ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博