文章预览
Content 本文是AI三巨头之一Bengio团队新作,提出了简化版的minGRU及minLSTM。我们将其集成于QuantML-Qlib之中,用于金融市场预测。 Transformer模型虽然在序列建模任务中取得了显著进展,但由于其计算复杂度随序列长度呈二次增长,处理长序列时资源消耗过高。近年来,为了提高效率,出现了多种新型递归序列模型。本文通过重新审视传统的递归神经网络(RNN),尤其是长短期记忆网络(LSTM)和门控循环单元(GRU),提出了一种简化方法,移除其隐藏状态依赖并消除了需要通过时间反向传播(BPTT)的限制,从而使这些模型可以并行化训练。 文章引入了简化版的LSTM和GRU,即minLSTM和minGRU,简化后它们的参数数量显著减少,并且在序列长度为512时,训练速度提高了175倍。实验结果表明,这些简化的RNN模型在计算效率上与最新的序列模型相当,并且在多个任务
………………………………