超参数
超参数是开发人员在构建模型时根据经验预先设置的参数,例如,网络层数,每层的神经元数量。
超参数不包括训练中学习的参数,例如,权重与偏置。
感知器和Adaline算法的超参数为:
- 学习率η
- epoch次数
学习率表示学习的速度,影响训练过程中,权重每次调整的值大小。
epoch是指一个完整的训练,即训练集中的数据都跑过一遍。
学习率选择
实践中,通常需要做一些实验,找到一个最适合的学习率η,可以让训练过程达到最优收敛。
学习率过小,导致收敛速度慢,步子小速度慢;学习率过大,导致找不到最小值点,步子太大跨过去了。
左边的图展示了最优学习率,成本函数可以快速收敛到全局最小值,但是如果学习率太小,收敛过程会变得很慢。
右边的图展示了,当选了一个很大的学习率,在调整权重时,有可能会跳过全局最小值。