专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【牛津大学博士论文】使用多模态学习的手语理解,259页pdf

专知  · 公众号  ·  · 2024-09-15 12:00

文章预览

手语是一种视觉-空间语言,是聋人社区的自然交流方式 。尽管近年来在视觉和语言任务上取得了进展,但自动手语理解仍然未得到充分解决。进展的关键障碍之一是缺乏合适的训练数据。在本论文中,我们旨在应对这一挑战。 首先,我们专注于视觉关键词检测(KWS)——这一任务是确定关键词是否以及何时在视频中被表达——并利用手语者有时同时口型化他们所打出的词这一事实。我们最初提出了一种受目标检测方法启发的卷积KWS架构,在对说话者面部数据进行训练后,我们通过使用Transformers改进了视频和关键词表示之间的跨模态交互。随后,我们将KWS模型应用于域外的手语者口型化,以此作为定位手语的手段:通过利用弱对齐的字幕提供查询词,我们在现有的手语翻译电视数据中自动标注了数十万手语。 其次,为了超越稀疏的口型化现象,我 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览