深度学习学习笔记(5)过拟合与权重衰减

过拟合(Overfitting)指的是模型在训练集上的表现远远高于测试集,模型过于复杂、训练数据过少都会导致过拟合。

正则化(Regularization)是在模型训练时人为加入约束,以控制模型复杂度、降低过拟合风险的一类方法。

权重衰减(Weight Decay)是一种常用的正则化技术,旨在防止模型在训练过程中过拟合。它通过在损失函数中增加一个惩罚项来约束模型的复杂度,促使模型学习到更简单、更平滑的函数,从而提高其在新数据上的泛化能力。通常使用的方法是在损失函数中加一个惩罚项 λΩ(w)\lambda\operatorname{\Omega}(w) 其中超参数 λ\lambda 是正则化强度。

常见的正则化形式:

  • L2 正则化 Ω(w)=λ2w2\operatorname{\Omega}(w)=\frac{\lambda}{2} \|w\|^2
  • L1 正则化 Ω(w)=w\operatorname{\Omega}(w)=|w|