注册登录

专栏名称: CVHub

门头沟学院AI视觉实验室御用公众号 | 学术 | 科研 | 就业

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

潇湘晨报 · 现场视频曝光！小米SU7 ... · 22 小时前

潇湘晨报 · “77777777”手机号拍出254.4万元 · 昨天

潇湘晨报 · 素颜女生艺考被要求卸妆3次，本人回应：可能皮肤好 · 昨天

潇湘晨报 · 消息称华为正式组建医疗卫生军团 · 2 天前

潇湘晨报 · 张凯丽：建议家暴者离婚少分或不分财产 · 3 天前

今天看啥 › 专栏 › CVHub

NeurIPS 2024 | TextHarmony: 基于统一架构的视觉文本理解与生成模型

CVHub · 公众号 · · 2024-10-28 12:00

文章预览

论文标题：Harmonizing Visual Text Comprehension and Generation 论文地址：https://arxiv.org/abs/2407.16364 论文源码：https://github.com/bytedance/TextHarmony 引言在人工智能领域，赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前，视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一，但在 OCR 领域的多数任务上仍难以达成全面整合。例如， Monkey 等视觉语言模型（VLM）擅长文字检测、识别和视觉问答（VQA）等文本模态生成任务，却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之，以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此，OCR 领域亟需一个能够统一多模态生成的大模型关键问题多模态生成的内在矛盾研究人员发现，多模态生成大模型面临视觉与语 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

潇湘晨报 · 现场视频曝光！小米SU7 Ultra赛道首撞，车头受损严重，事故原因暂时未知

22 小时前

潇湘晨报 · “77777777”手机号拍出254.4万元

昨天

潇湘晨报 · 素颜女生艺考被要求卸妆3次，本人回应：可能皮肤好

昨天

潇湘晨报 · 消息称华为正式组建医疗卫生军团

2 天前

潇湘晨报 · 张凯丽：建议家暴者离婚少分或不分财产

3 天前

中国化学天辰公司 · 莫鼎革在陕开展商务活动

9 月前

茶话股经 · 见证工业奇迹

9 月前

植物前沿 · 有颜有市场！园林绿化最常用的25种藤本植物~

5 月前

一条 · 小兴安岭天然白桦树汁，新鲜采集0添加，甘冽清爽，有桦木清香

5 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号