专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

从谱范数梯度到新式权重衰减的思考

数据派THU  · 公众号  · 大数据  · 2025-02-11 17:00
    

文章预览

本文 约2400字 ,建议阅读 8分钟 本文推导了谱范数的梯度,由此导出了一种新的权重衰减,并分享了笔者对它的思考。 ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 在文章《Muon优化器赏析:从向量到矩阵的本质跨越》中,我们介绍了一个名为 “Muon” 的新优化器,其中一个理解视角是作为谱范数正则下的最速梯度下降,这似乎揭示了矩阵参数的更本质的优化方向。 众所周知,对于矩阵参数我们经常也会加权重衰减(Weight Dec ay),它可以理解为   范数平方的梯度,那么从 Muon 的视角看,通过谱范数平方的梯度来构建新的权重衰减,会不会能起到更好的效果呢? 那么问题来了,谱范数的梯度或者说导数长啥样呢?用它来设计的新权重衰减又是什么样的?接下来我们围绕这些问题展开。 一、 基础回顾 谱范数(Spectral ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览