Cover photo

ML-Andrew NG 学习笔记(4) Overfitting & Regularization

a.拟合问题

对于一组相同的数据,可以选取不同的模型对其训练。模型的不同会导致其对数据的贴合表现不近相同。

结果总体上可以分为以下三种(首先使用回归作为例子):

  • underfit(欠拟合)

如图,使用一个一次的简单函数拟合,很显然,让人不甚满意

也可以称为high bias
也可以称为high bias
  • good fit(正常拟合)

    这次采用二阶多项式进行拟合,虽然有的点并没有在线上,但是总体而言非常不错

generalization
generalization
  • overfit(过拟合)

    使用了复杂的四阶多项式,每个点都位于线上,但是这样的结果很显然不适用于真实的房价预测

high variance
high variance

high bias:模型过于简单或特征选择不充分,使得没有足够的灵活性来适应数据中的变化

high variance:模型试图捕捉数据中每个细微的点,甚至可能误将噪声认为使真实信号,给一组不同的数据集训练变化会非常大

分类中的例子:

underfit                                        good fit                                        overfit
underfit good fit overfit

欠拟合可以通过增加模型的复杂程度或者补充特征来使模型完善,下文主要讨论关于过拟合的问题。

解决方案:

  • 增加训练样本数量

  • 选择合适的特征

    不充足的数据+所有的特征很容易导致过拟合,可以删掉一些不是非常重要的特征。但同样存在问题,这一过程中会丢弃部分数据,其中可能会有某些有用的。
    
  • 正则化(regularization)

正则化
正则化

b.0 正则化

如图,当参数w_3w_4接近于0时,对应自变量的作用被极大地消减了,图像上呈现的很接近只存在w_1w_2的,能更加泛化,这便达到我们的训练目的

post image

至此,为了让模型自己能找到合适的参数,又不至于过拟合,成本函数J可以增加一项以实现正则化

λ:regularization parameter,至于参数b可处理可不处理
λ:regularization parameter,至于参数b可处理可不处理

前者用于拟合数据,后者用于使w_j保持在较小值

λ是MSE和正则化项之间的权衡,指定了相对的重要性或者说如何在这两个目标之间找到平衡

两种极端:

post image
  • λ=0:完全没有使用到正则化的技术,最终的预测图像仍然是十分摇摆不定的

  • λ=10的十次方:正则化项的系数太大了,模型一直在尽力缩小,最终的结果就是w_j的值非常接近0,最终*f(x)*接近未经处理的b

b.1 线性回归的正则化

相较于以前没有正则化的版本只是多了橘色框的部分t,t见下文
相较于以前没有正则化的版本只是多了橘色框的部分t,t见下文

从另一角度,或者说从其本质看:

     正则化对模型有着收缩的作用

α是一个较小数,λ也很小,m比较大,1减去后是一个很接近1自己的数字
α是一个较小数,λ也很小,m比较大,1减去后是一个很接近1自己的数字

数学求导过程:

t_0即为前文的正则化项,t_0最终求得上文t
t_0即为前文的正则化项,t_0最终求得上文t

b.2 逻辑回归的正则化

与线性回归类似,只不过对于*f(x)*的定义不同

post image