深度学习Batch Size玄学被打破

小白学视觉 · 公众号 · · 2024-08-22 10:24

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄学？似乎很少有人验证过。最近，威斯康星大学麦迪逊分校助理教授，著名机器学习博主 Sebastian Raschka 对此进行了一番认真的讨论。 Sebastian Raschka 关于神经网络训练，我认为我们都犯了这样的错误：我们选择批量大小为 2 的幂，即 64、128、256、512、1024 等等。（这里，batch size 是指当我 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博