专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

新智元  · 公众号  · AI  · 2024-05-28 13:01
    

文章预览

   新智元报道   编辑:LRT 【新智元导读】 通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异,尤其在视频级跨域自适应方面,仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。 文本端到端识别是一项从图像或视频序列中提取文本信息的任务,虽然取得了一些进展,但跨领域文本端到端识别仍然是一个难题,面临着图像到图像和图像到视频泛化等跨域自适应的挑战。 图1 图(a)和图(b)是两种跨域文本端到端识别,包括图像到图像和图像到视频。TT表示TotalText,IC15代表ICDAR2015,IC13代表视频ICDAR2013。 图像级跨域文本端到端识别面临样式、字体、背景等差异挑战,模型需要具备极强的泛化能力。 不同数据集间的格式差异也是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览