2024-09-23 05:37
本条微博链接
通过证明Shampoo与Adafactor的等价关系,提出了SOAP算法,该算法在Shampoo提供的特征空间中运行AdamW,可以显著减少大规模语言模型的训练时间与迭代次数。
[LG]《SOAP: Improving and Stabilizing Shampoo using Adam》N Vyas, D Morwani, R Zhao, I Shapira... [Harvard University] (2024) 网页链接 #机器学习# #人工智能
………………………………