文章预览
本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型,即TextHarmony。TextHarmony不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA等)和生成(视觉文字生成、编辑、抹除等),而且在单一模型中实现了视觉与语言模态生成的和谐统一。 一、研究背景 如何让机器像人类一样感知、理解、编辑和生成图像中的文字,一直是人工智能领域的热点问题。当前视觉文字领域的大模型研究专注于单模型生成任务,单模态生成的大模型虽然统一了某些任务,但无法做到OCR领域中大部分任务的大一统,比如Monkey等VLM只能处理文字检测、识别、VQA等文本模态生成的任务,无法胜任文字图像生成、抹除、编辑等图像模态生成的任务,基于Diffusion Model的图像生成模
………………………………