LSTM卷土重来之Vision-LSTM出世！

啥都会一点的研究生 · 公众号 · · 2024-06-15 00:25

文章预览

来源 | 机器之心与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比，ViL 的性能更胜一筹。 AI 领域的研究者应该还记得，在 Transformer 诞生后的三年，谷歌将这一自然语言处理届的重要研究扩展到了视觉领域，也就是 Vision Transformer。后来，ViT 被广泛用作计算机视觉中的通用骨干。这种跨界，对于前不久发布的 xLSTM 来说同样可以实现。最近，享誉数十年的 LSTM 被扩展到一个可扩展且性能良好的架构 ——xLSTM，通过指数门控和可并行化的矩阵内存结构克服了长期存在的 LSTM 限制。现在，这一成果已经扩展到视觉领域。 xLSTM和 Vision-LSTM 两项研究均由 LSTM 原作者带队，也就是 LSTM 的提出者和奠基者 Sepp Hochreiter。在最近的这篇论文中，Sepp Hochreiter 等人推出了 Vision-LSTM（ViL）。ViL 包含一堆 xLSTM 块，其中奇数块从上到下、偶数块则从下到上处理补丁 tok ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博