今天看啥  ›  专栏  ›  斌叔OKmath

@Apple 研究人员在这篇论文中提出了很酷的想法。声称 Ada-20240908075008

斌叔OKmath  · 微博  ·  · 2024-09-08 07:50

文章预览

2024-09-08 07:50 本条微博链接 @Apple 研究人员在这篇论文中提出了很酷的想法。 声称 AdamW 需要比其提出的优化器多 95% 的训练令牌(即 1.95 倍的梯度更新)才能达到相同的损失。 🤯 在 101B 个 token 上训练的 1.3B 参数 AdEMAMix LLM 的表现与在 197B 个 token 上训练的 AdamW 模型相当 (+95 %) **结果** 📊 : • 在语言建模和视觉任务上始终优于 AdamW • 提高优化稳定性和收敛速度 • 忘记训练数据的速度比 AdamW 慢 **原始问题** 🔍 : 当前 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览