一口气看8页！旷视提出Fox：图文并茂的文档交互式多模态大模型

CVer · 公众号 · · 2024-06-01 23:59

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/扩散/多模态】交流群添加微信：CVer5555，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！导读最近，旷视打造了一支多模态大模型的“点读笔”-Fox，轻松实现对8页文档（中英混合，单栏多栏格式混合的极端场景）的交互式感知理解。最近，旷视打造了一支多模态大模型的“点读笔”-Fox，轻松实现对8页文档（中英混合，单栏多栏格式混合的极端场景）的交互式感知理解。对于信息密集的PDF文档，Fox支持高可控性的细粒度理解，比如在用户感兴趣区域内进行文字识别、段落翻译以及页面内部的图片内容描述等。 “一图胜千言”— ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

南国早报 · 《漂白》替身被汽车碾轧画面惹争议，本人回应，剧组道歉！

14 小时前

Vlinkage · “电视剧制作产业大会”干货：视频网站痛定思痛，制作方呼吁保住产能

昨天

华策影视 · 《国色芳华》×王者荣耀联动今日正式上线！联动时装 & 语音 & 趣味动作免费送~

2 天前

文明湖北 · 木偶短剧《喜事新办》| 全国移风易俗优秀文艺节目集中展演

2 天前

广东攻略 · 吴奇隆、刘诗诗突传新消息

2 天前

mimi星的医学 · 肾结石| 医学科普，了解疾病不迷路

8 月前

催化进展 · Angew：AA 堆叠氢取代石墨炔用于增强锂存储

4 周前

杭州发布 · 拍拍拍！杭州最火爆的列车，好多人在等…

6 天前