对于一组相同的数据,可以选取不同的模型对其训练。模型的不同会导致其对数据的贴合表现不近相同。
结果总体上可以分为以下三种(首先使用回归作为例子):
underfit(欠拟合)
如图,使用一个一次的简单函数拟合,很显然,让人不甚满意

good fit(正常拟合)
这次采用二阶多项式进行拟合,虽然有的点并没有在线上,但是总体而言非常不错

overfit(过拟合)
使用了复杂的四阶多项式,每个点都位于线上,但是这样的结果很显然不适用于真实的房价预测

high bias:模型过于简单或特征选择不充分,使得没有足够的灵活性来适应数据中的变化
high variance:模型试图捕捉数据中每个细微的点,甚至可能误将噪声认为使真实信号,给一组不同的数据集训练变化会非常大
分类中的例子:

欠拟合可以通过增加模型的复杂程度或者补充特征来使模型完善,下文主要讨论关于过拟合的问题。
解决方案:
增加训练样本数量
选择合适的特征
不充足的数据+所有的特征很容易导致过拟合,可以删掉一些不是非常重要的特征。但同样存在问题,这一过程中会丢弃部分数据,其中可能会有某些有用的。正则化(regularization)

如图,当参数w_3和w_4接近于0时,对应自变量的作用被极大地消减了,图像上呈现的很接近只存在w_1,w_2的,能更加泛化,这便达到我们的训练目的

至此,为了让模型自己能找到合适的参数,又不至于过拟合,成本函数J可以增加一项以实现正则化

前者用于拟合数据,后者用于使w_j保持在较小值
λ是MSE和正则化项之间的权衡,指定了相对的重要性或者说如何在这两个目标之间找到平衡
两种极端:

λ=0:完全没有使用到正则化的技术,最终的预测图像仍然是十分摇摆不定的
λ=10的十次方:正则化项的系数太大了,模型一直在尽力缩小,最终的结果就是w_j的值非常接近0,最终*f(x)*接近未经处理的b

从另一角度,或者说从其本质看:
正则化对模型有着收缩的作用

数学求导过程:

与线性回归类似,只不过对于*f(x)*的定义不同


