文章预览
文档图像理解技术旨在让计算机能够像人类一样理解文档图像中的内容。它主要涉及对扫描或拍摄得到的文档图像(如纸质合同、书籍页面、发票等)进行分析、处理和理解,提取其中有价值的信息,如文字、表格、图表等,并对这些信息进行结构化处理。在当今数字化转型的浪潮中,文档图像理解技术广泛应用于企业、学术和日常生活,以提升文档处理效率与准确性。 此前,结合文心大模型,飞桨发布了PP-ChatOCRv3 大小模型融合方案,先采用OCR技术提取图像中的文本,再输入文心大模型进行分析问答,最终大幅提升了文本图像版面解析和信息抽取效果。该方案在文字和表格上的准确度很高,但对于文档中图像和图表理解能力需进一步提升。 因此,为了更好满足用户对复杂多样的文档图像理解任务的需求,我们提出了新的方案PP-DocBee,基于多模态
………………………………