专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

新智元 · 公众号 · AI · 2024-05-28 13:01

文章预览

新智元报道编辑：LRT 【新智元导读】通过提示查询生成模块和任务感知适配器，大一统框架VimTS在不同任务间实现更好的协同作用，显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异，尤其在视频级跨域自适应方面，仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。文本端到端识别是一项从图像或视频序列中提取文本信息的任务，虽然取得了一些进展，但跨领域文本端到端识别仍然是一个难题，面临着图像到图像和图像到视频泛化等跨域自适应的挑战。图1 图(a)和图(b)是两种跨域文本端到端识别，包括图像到图像和图像到视频。TT表示TotalText，IC15代表ICDAR2015，IC13代表视频ICDAR2013。图像级跨域文本端到端识别面临样式、字体、背景等差异挑战，模型需要具备极强的泛化能力。不同数据集间的格式差异也是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[415星]Hear：macOS的命令行语音识别工具，让你的电-20250108133358

9 小时前

爱可可-爱生活 · 【[18星]BGE-M3-Model-Converter：用于手-20250108134014

9 小时前

黄建同学 · #年味早点办##天猫年货节#✨新年就要换个新气象，年货早准备，年-20250106190719

2 天前

爱可可-爱生活 · Claude，你这是咋了？你可不能倒下啊～ -20250106162700

2 天前

量子位 · 一言不合和boss耳光大战，年轻人蜷缩的AI世界好癫

2 天前

市场部网精选 · 库克不想颠覆式创新

3 月前

政治学与国际关系论坛 · 招聘ing | 来北大工作机会！戳→

1 周前