最佳答案
当我增加或减少在 SGD 使用的迷你批次的批次数目时,我应否改变学习率?
作为参考,我和某人讨论过,有人说,当批量增加时,学习率应该在一定程度上降低。
我的理解是,当我增加批量大小,计算平均梯度将较少噪音,所以我要么保持相同的学习率或增加它。
另外,如果我使用一个在线机机器学习优化器,比如 Adam 或 RMSProp,那么我想我可以保持学习率不变。
如果我错了,请纠正我,并提供任何有关这方面的见解。