文章预览
本文介绍了一种名为 DocFormerv2 的多模态Transformer模型,它专为视觉文档理解( VDU )而设计。该模型可以处理视觉、语言和空间特征,利用编码器 - 解码器架构,并通过不对称地使用新颖的无监督任务进行预训练,以促进不同模态间局部特征的对齐。实验结果表明, DocFormerv2 在包括表格事实验证、信息抽取和文档 VQA 在内的多个基准测试中表现优异,甚至在某些任务上超过了规模更大的模型。此外,详尽的消融研究表明,其预训练过程使得 DocFormerv2 在 VDU 领域内比现有技术更好地理解多种模态的信息。 1 DocFormer2 (1)模型架构: DocFormerv2是一个多模态Transformer模型,专门用于视觉文档理解(Visual Document Understanding, VDU)。 它是一个编码器-解码器结构的Transformer,能够接收视觉、语言和空间特征作为输入。 (2)预训练策略: DocFormerv2采用了非对称的
………………………………