您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页【转】BatchSize设置过大时,对神经网络性能的影响情况

【转】BatchSize设置过大时,对神经网络性能的影响情况

来源:飒榕旅游知识分享网
【转】BatchSize设置过⼤时,对神经⽹络性能的影响情况

之前的⼀⽚博⽂写了Batch Size的作⽤和应该如何设置⽐较合适,同时还有Batch Size⼤⼩,与学习率lrlr、训练次数epochepoch之间的关系。⾥⾯提及Batch Size越⼤,梯度的⽅向越准确。

上述的说法是没错的,梯度⽅向准确,最后⽹络收敛情况好,但是收敛情况好并不意味⽹络的性能就好,⽹络收敛好意味着对训练数据作出了较好的拟合,但是并不意味着就会对测试数据作出很好的拟合。这存在的⼀个“泛化”的问题。

ON LARGE-BATCH TRAINING FOR DEEP LEARNING:GENERALIZATION GAP AND SHARP MINIMA 论⽂发现了使⽤large-batch训练得到的⽹络具有较差的泛化能⼒。使⽤large-batch的情况下容易收敛成“sharp minimizers”,使其的泛化能⼒差。⽽相对使⽤“small-batch”训练的最终会收敛到“flat minimizers”,这是因为在“small-batch”中在梯度计算中固有噪声的存在,使得⽹络的最终收敛成“flatminimizers”

论⽂中提及了使⽤“large-batch”造成泛化能⼒差的原因可能是⽹络直接收敛到初始值附近。同时,论⽂尝试提出⼏种⽅法,如数据增

强,“conservative training”和“robust optimization”,但好像也没什么效果。另⼀种补救⽅法包括使⽤动态抽样,在这种情况下,随着迭代的进⾏,批⼤⼩逐渐增⼤。

感想:batch size从下降到6,发现平均准确率提升0.4%左右。我的ResNet最佳层数为6.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务