过拟合(Overfitting)指的是模型在训练集上的表现远远高于测试集,模型过于复杂、训练数据过少都会导致过拟合。
正则化(Regularization)是在模型训练时人为加入约束,以控制模型复杂度、降低过拟合风险的一类方法。
权重衰减
权重衰减(Weight Decay)是一种常用的正则化技术,旨在防止模型在训练过程中过拟合。它通过在损失函数中增加一个惩罚项来约束模型的复杂度,促使模型学习到更简单、更平滑的函数,从而提高其在新数据上的泛化能力。通常使用的方法是在损失函数中加一个惩罚项 ,其中超参数 是正则化强度。
常见的正则化形式:
- L2 正则化
- L1 正则化
暂退法
在之前的训练方法中,有时模型的多个神经元会产生很强的相互依赖,即“共适应”,而我们希望模型能够学到独立、通用的特征。
我们选择在训练过程中,以一定概率随机“丢弃”一部分神经元(将其输出置为 ),使网络在每一次前向传播时都相当于在训练一个“子网络”。