专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

IJCAI 2024 | 教学视频理解新范式-大纲引导,哈工大提出教学视频数据集GUIDE

将门创投  · 公众号  · 科技创业  · 2024-07-31 08:22

主要观点总结

文章介绍了教学视频指导学习者完成多步骤任务的情况,指出目前教学视频数据集存在的问题,并介绍了GUIDE数据集的提出背景、内容以及优势。文章还详细介绍了GUIDE数据集的构建流程,包括视频收集、自动标注、人工优化等三个阶段。此外,文章还介绍了三个评估任务:Step Captioning、Guideline Summarization、Guideline-Guided Captioning,并进行了实验结果的分析。最后,介绍了投稿计划和相关细节。

关键观点总结

关键观点1: 教学视频指导学习多步骤任务的重要性及现状

文章指出教学视频在指导学习多步骤任务中的重要作用,如烹饪、化妆和刺绣等。目前的教学视频数据集大多关注细粒度标注,缺乏系统性,导致初学者难以学习。

关键观点2: GUIDE数据集的提出与优势

为了解决现有教学视频数据集的问题,文章提出了GUIDE数据集,该数据集包含日常生活相关的8个领域中560个教学任务的3.5K条视频。GUIDE数据集在现有视频维度之上提出教学任务维度上的大纲步骤,有助于学习者更好地理解和掌握教学任务。

关键观点3: GUIDE数据集的构建流程

文章详细介绍了GUIDE数据集的构建流程,包括视频收集、自动标注、人工优化等三个阶段。其中,自动标注阶段包含详细步骤生成和大纲步骤生成两个子阶段。

关键观点4: 三个评估任务的介绍与分析

文章介绍了三个评估任务:Step Captioning、Guideline Summarization、Guideline-Guided Captioning。并对实验结果进行了分析,发现模型的性能在不同任务上有所差异,大纲步骤的准确性直接影响详细步骤的生成效果。

关键观点5: 投稿计划及相关细节

文章最后介绍了TechBeat的原创投稿计划,包括投稿内容、须知、方式和关于将门的介绍。


文章预览

教学视频指导学习者如何完成多步骤任务,例如烹饪、化妆和刺绣、修理或制作新物品。如图1所示,目前的教学视频数据集大多关注于细粒度标注,缺乏系统性,导致初学者难以学习。在现实生活中,从属相同任务的教学视频之间大多存在很高的流程相似度,因此该工作提出了GUIDE(指南引导)数据集,在现有视频维度之上提出 教学任务维度 上的大纲步骤。数据集包含日常生活相关的8个领域中560个教学任务的3.5K条视频。此外,该工作提出了三个任务(Step Captioning,Guideline Summarization,Guideline-Guided Captioning)评估了多个模型的教学视频理解能力,实验结果表明GUIDE能够帮助大模型提升教学视频(程序性内容)理解能力。目前该工作已被IJCAI 2024接收。 论文名称: GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension 论文链接: https://arxiv.org/abs/2406.1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览