专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI大模型学习基地

用于文档理解的局部特征

AI大模型学习基地  · 公众号  ·  · 2024-10-29 17:32
    

文章预览

本文介绍了一种名为 DocFormerv2 的多模态Transformer模型,它专为视觉文档理解( VDU )而设计。该模型可以处理视觉、语言和空间特征,利用编码器 - 解码器架构,并通过不对称地使用新颖的无监督任务进行预训练,以促进不同模态间局部特征的对齐。实验结果表明, DocFormerv2 在包括表格事实验证、信息抽取和文档 VQA 在内的多个基准测试中表现优异,甚至在某些任务上超过了规模更大的模型。此外,详尽的消融研究表明,其预训练过程使得 DocFormerv2 在 VDU 领域内比现有技术更好地理解多种模态的信息。 1 DocFormer2 (1)模型架构: DocFormerv2是一个多模态Transformer模型,专门用于视觉文档理解(Visual Document Understanding, VDU)。 它是一个编码器-解码器结构的Transformer,能够接收视觉、语言和空间特征作为输入。 (2)预训练策略: DocFormerv2采用了非对称的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览