【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知 · 公众号 · · 2024-09-15 12:00

文章预览

手语是一种视觉-空间语言，是聋人社区的自然交流方式。尽管近年来在视觉和语言任务上取得了进展，但自动手语理解仍然未得到充分解决。进展的关键障碍之一是缺乏合适的训练数据。在本论文中，我们旨在应对这一挑战。首先，我们专注于视觉关键词检测（KWS）——这一任务是确定关键词是否以及何时在视频中被表达——并利用手语者有时同时口型化他们所打出的词这一事实。我们最初提出了一种受目标检测方法启发的卷积KWS架构，在对说话者面部数据进行训练后，我们通过使用Transformers改进了视频和关键词表示之间的跨模态交互。随后，我们将KWS模型应用于域外的手语者口型化，以此作为定位手语的手段：通过利用弱对齐的字幕提供查询词，我们在现有的手语翻译电视数据中自动标注了数十万手语。其次，为了超越稀疏的口型化现象，我 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博