文章预览
↑ 点击 蓝字 关注极市平台 作者丨派派星 来源丨CVHub 编辑丨极市平台 极市导读 本文介绍了TextHarmony,这是一个统一的视觉文本理解和生成模型,它通过创新的Slide-LoRA技术和两阶段训练方法,解决了多模态生成中的模态不一致问题,并在视觉文本感知、理解、生成和编辑方面展现出卓越性能。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 论文标题 :Harmonizing Visual Text Comprehension and Generation 论文地址 :https://arxiv.org/abs/2407.16364 论文源码 :https://github.com/bytedance/TextHarmony 引言 在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。 例如, Monkey 等视觉
………………………………