ML-Andrew NG 学习笔记(4) Overfitting & Regularization

对于一组相同的数据，可以选取不同的模型对其训练。模型的不同会导致其对数据的贴合表现不近相同。

结果总体上可以分为以下三种（首先使用回归作为例子）：

如图，使用一个一次的简单函数拟合，很显然，让人不甚满意

high bias：模型过于简单或特征选择不充分，使得没有足够的灵活性来适应数据中的变化
high variance：模型试图捕捉数据中每个细微的点，甚至可能误将噪声认为使真实信号，给一组不同的数据集训练变化会非常大

分类中的例子：

欠拟合可以通过增加模型的复杂程度或者补充特征来使模型完善，下文主要讨论关于过拟合的问题。

解决方案：

选择合适的特征

不充足的数据+所有的特征很容易导致过拟合，可以删掉一些不是非常重要的特征。但同样存在问题，这一过程中会丢弃部分数据，其中可能会有某些有用的。

如图，当参数w_3和w_4接近于0时，对应自变量的作用被极大地消减了，图像上呈现的很接近只存在w_1，w_2的，能更加泛化，这便达到我们的训练目的

至此，为了让模型自己能找到合适的参数，又不至于过拟合，成本函数J可以增加一项以实现正则化

前者用于拟合数据，后者用于使w_j保持在较小值

λ是MSE和正则化项之间的权衡，指定了相对的重要性或者说如何在这两个目标之间找到平衡

两种极端：

从另一角度，或者说从其本质看：

正则化对模型有着收缩的作用

数学求导过程：

与线性回归类似，只不过对于*f(x)*的定义不同

jasonyang