【牛津大学博士论文】使用多模态学习的手语理解

数据派THU · 公众号 · 大数据 · 2024-09-17 17:00

主要观点总结

本文介绍了一篇关于自动手语理解的论文。文章主要介绍了手语作为一种视觉-空间语言在聋人社区中的交流方式，并指出尽管近年来在视觉和语言任务上有所进展，自动手语理解仍然存在许多问题。主要的障碍之一是缺乏合适的训练数据。

关键观点总结

关键观点1: 缺乏合适的训练数据成为自动手语理解的主要障碍之一。

论文针对这一挑战，通过一系列方法应对，包括利用视觉关键词检测、利用口型化标注手语等方法获取大规模监督数据集，促进了强手语表示的学习。

关键观点2: 论文聚焦于手语任务中的拼指字母和连续手语识别。

通过提出弱监督方法和多任务模型等解决方案来解决这些问题。

关键观点3: 探索如何从弱信号中获得更强的监督以解决更广泛的任务。

引入了一种动词聚焦的对比框架，包括利用预训练的大型语言模型生成用于跨模态对比学习的困难负例，以及施加细粒度的对齐损失等方案。

关键观点4: 介绍数据来源和社交媒体平台。

数据派THU公众号作为数据科学类公众号的代表，背靠清华大学大数据研究中心进行内容分享与传播，同时在各大社交媒体平台有广泛影响力。

文章预览

来源：专知本文为论文介绍，建议阅读 5 分钟尽管近年来在视觉和语言任务上取得了进展，但自动手语理解仍然未得到充分解决。进展的关键障碍之一是缺乏合适的训练数据。在本论文中，我们旨在应对这一挑战。手语是一种视觉-空间语言，是聋人社区的自然交流方式。尽管近年来在视觉和语言任务上取得了进展，但自动手语理解仍然未得到充分解决。进展的关键障碍之一是缺乏合适的训练数据。在本论文中，我们旨在应对这一挑战。首先，我们专注于视觉关键词检测（KWS）——这一任务是确定关键词是否以及何时在视频中被表达——并利用手语者有时同时口型化他们所打出的词这一事实。我们最初提出了一种受目标检测方法启发的卷积KWS架构，在对说话者面部数据进行训练后，我们通过使用Transformers改进了视频和关键词表示之间的跨模态 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博