专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

新SCMHSA架构缓解 Transformer 下一帧预测语义稀释,适配损失函数性能更优 !

arXiv每日学术速递  · 公众号  ·  · 2025-03-05 12:38
    

文章预览

视频中的下一帧预测对于自动驾驶、目标跟踪和运动预测等应用至关重要。下一帧预测的主要挑战在于有效地从先前的视频序列中捕获和处理空间和时间信息。 以擅长处理序列数据著称的Transformer架构,在这一领域取得了显著的进展。然而,基于Transformer的下一帧预测模型存在一些显著问题: (a)多头自注意力(MHSA)机制需要将输入嵌入分成 个片段,其中 是头的数量。每个片段仅捕获原始嵌入信息的一小部分,这扭曲了嵌入在潜在空间中的表示,导致语义稀释问题; (b)这些模型预测下一帧的嵌入而不是帧本身,但损失函数基于重建帧的错误,而不是预测嵌入——这造成了训练目标和模型输出之间的差异。作者提出了语义浓度多头自注意力(SCMHSA)架构,有效地缓解了基于Transformer的下一帧预测中的语义稀释问题。 此外,作者引入了一个损失 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览