专栏名称: QuantML
致力于机器学习量化模型最深度研究,每天分享前沿论文,策略模型代码,alpha因子等信息。 商务合作:quantml@126.com
今天看啥  ›  专栏  ›  QuantML

QuantML-Qlib Model | 无需归一化,何恺明LeCun联手打造DyT

QuantML  · 公众号  ·  · 2025-03-16 18:32
    

文章预览

近日何恺明与LeCun联合发布了一项颠覆性的新技术——动态Tanh(DyT)。这项技术以其简单的实现方式和卓越的性能优势,引发了业内的广泛关注和讨论。DyT旨在替代传统的归一化层,在不减少性能的同时显著加速深度学习模型的训练过程。 归一化层在现代神经网络中扮演着关键角色,其主要目的是加速模型收敛、提高性能、增强泛化能力以及缓解梯度消失/爆炸问题。通过调整输入数据的分布,归一化层使得不同层之间的数据分布更加稳定,从而提升训练效率和模型表现。然而,归一化层也存在一些挑战,例如计算开销大、对 batch size 和超参数敏感,以及在推理阶段可能存在的不一致性。 DyT 模型是一种旨在替代 Transformer 中传统归一化层(如 Layer Normalization,LN)的创新方法。 其核心操作是动态 Tanh 函数,通过可学习的标量参数   动态调整输入的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览