专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
今天看啥  ›  专栏  ›  AI大模型学习基地

将 Vision Mamba 和 LSTM 结合,以实现高效准确的空间时间预测

AI大模型学习基地  · 公众号  ·  · 2024-10-21 18:52

文章预览

文章介绍了一种称为 VMRNN( Vision Mamba RNN ) 的新模型,该模型通过整合 Vision Mamba 模块与长短期记忆网络( LSTM ),以应对时空预测挑战,特别是在处理视频序列预测等任务时,能够有效地建模长依赖关系并保持计算效率。文章强调了传统的卷积神经网络( CNNs )和视觉变换器( ViTs )在处理此类任务时的局限性,如感受野受限及计算需求高,并展示了 VMRNN 在网络规模较小的情况下,在多种时空预测任务中取得了有竞争力的结果。 1 VMRNN的架构 一个基于VMRNN Cell的基本模型(VMRNN-B)和一个更深层的模型(VMRNN-D)。在每个时间步骤中,图像被分割为非重叠的补丁,并通过展平和初步线性转换进入后续处理阶段。 1.VMRNN-B模型: 处理流程:VMRNN层接收嵌入后的图像patch以及前一时刻的状态信息(隐藏状态Ht-1和细胞状态Ct-1),进而生成当前的隐藏状态Ht ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览