今天看啥  ›  专栏  ›  爱可可-爱生活

通过发现最优学习率与batchsize和数据量之间的幂定律关系,-20240828060424

爱可可-爱生活  · 微博  · AI  · 2024-08-28 06:04

文章预览

2024-08-28 06:04 本条微博链接 通过发现最优学习率与batchsize和数据量之间的幂定律关系,提出一种与batchsize和数据量无关的Power学习率调度器,实现了超参的高迁移性。 [CL]《Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler》Y Shen, M Stallone, M Mishra, G Zhang... [IBM] (2024) 网页链接 #机器学习# #人工智能# # ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览