How does mini-batch size affect the performance of SGD?
一、概述 本文记录了自己探究batchSize,lr以及Performance之间关系这一问题时做的笔记,组织比较无序。第二、三部分为当时的问题和解答。第四部分为两篇论文的笔记。最后一部分给出了探究结果的其实——训练神经网络时和batchSize以及lr相关的trick。 顺便说下,本文一些重要的参考文献是Quora,reddit等国外高质量论坛的帖子。如果你需要访问,务必小心,因为有一定几率