深度学习学习笔记（5）过拟合与正则化方法

Locklink

2026-02-22

过拟合（Overfitting）指的是模型在训练集上的表现远远高于测试集，模型过于复杂、训练数据过少都会导致过拟合。

正则化（Regularization）是在模型训练时人为加入约束，以控制模型复杂度、降低过拟合风险的一类方法。

权重衰减

权重衰减（Weight Decay）是一种常用的正则化技术，旨在防止模型在训练过程中过拟合。它通过在损失函数中增加一个惩罚项来约束模型的复杂度，促使模型学习到更简单、更平滑的函数，从而提高其在新数据上的泛化能力。通常使用的方法是在损失函数中加一个惩罚项 $\lambda\operatorname{\Omega}(w)$ ，其中超参数 $\lambda$ 是正则化强度。

常见的正则化形式：

L2 正则化 $\operatorname{\Omega}(w)=\frac{\lambda}{2} \|w\|^2$
L1 正则化 $\operatorname{\Omega}(w)=|w|$

暂退法

在之前的训练方法中，有时模型的多个神经元会产生很强的相互依赖，即“共适应”，而我们希望模型能够学到独立、通用的特征。

我们选择在训练过程中，以一定概率随机“丢弃”一部分神经元（将其输出置为 $0$ ），使网络在每一次前向传播时都相当于在训练一个“子网络”。