用于文档理解的局部特征

AI大模型学习基地 · 公众号 · · 2024-10-29 17:32

文章预览

本文介绍了一种名为 DocFormerv2 的多模态Transformer模型，它专为视觉文档理解（ VDU ）而设计。该模型可以处理视觉、语言和空间特征，利用编码器 - 解码器架构，并通过不对称地使用新颖的无监督任务进行预训练，以促进不同模态间局部特征的对齐。实验结果表明， DocFormerv2 在包括表格事实验证、信息抽取和文档 VQA 在内的多个基准测试中表现优异，甚至在某些任务上超过了规模更大的模型。此外，详尽的消融研究表明，其预训练过程使得 DocFormerv2 在 VDU 领域内比现有技术更好地理解多种模态的信息。 1 DocFormer2 （1）模型架构： DocFormerv2是一个多模态Transformer模型，专门用于视觉文档理解（Visual Document Understanding, VDU）。它是一个编码器-解码器结构的Transformer，能够接收视觉、语言和空间特征作为输入。（2）预训练策略： DocFormerv2采用了非对称的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博