今天看啥  ›  专栏  ›  时序人

LSTM再升级!原作者携xLSTM回归,扩展LSTM到数十亿参数

时序人  · 公众号  ·  · 2024-08-20 20:32

文章预览

点击 名片 关注并星标 #TSer # 扫下方二维码 ,加入时序人学术星球 参与算法讨论,获取前沿资料 ( 220+ 篇专栏笔记,已有 210+ 同学加入学习) 长短期记忆网络(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),它能够学习到长距离的依赖关系。LSTM 的设计初衷是为了解决传统 RNN 在处理长序列数据时出现的梯度消失或梯度爆炸问题。 LSTM 的问世不仅在理论上是一大步,还在实际应用中也产生了革命性的影响。它很快成为了处理序列数据的利器,特别是在自然语言处理领域,LSTM 几乎参与了所有重要的任务,如语音识别、机器翻译、文本生成和情感分析等。 今年上半年,LSTM 提出者和奠基者 Sepp Hochreiter 携团队 再次提出了新的 LSTM —— xLSTM,将 LSTM 扩展到数十亿参数规模。与 Transformer 和 State Space Models 等最先进的方法相比,xLSTM 模型在语言建 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览