# ML-Andrew NG 学习笔记(4) Overfitting & Regularization **Published by:** [jasonyang](https://paragraph.com/@jasonyang/) **Published on:** 2023-07-27 **URL:** https://paragraph.com/@jasonyang/ml-andrew-ng-4-overfitting-regularization ## Content a.拟合问题对于一组相同的数据,可以选取不同的模型对其训练。模型的不同会导致其对数据的贴合表现不近相同。 结果总体上可以分为以下三种(首先使用回归作为例子):underfit(欠拟合)如图,使用一个一次的简单函数拟合,很显然,让人不甚满意也可以称为high biasgood fit(正常拟合) 这次采用二阶多项式进行拟合,虽然有的点并没有在线上,但是总体而言非常不错generalizationoverfit(过拟合) 使用了复杂的四阶多项式,每个点都位于线上,但是这样的结果很显然不适用于真实的房价预测high variancehigh bias:模型过于简单或特征选择不充分,使得没有足够的灵活性来适应数据中的变化 high variance:模型试图捕捉数据中每个细微的点,甚至可能误将噪声认为使真实信号,给一组不同的数据集训练变化会非常大分类中的例子:underfit good fit overfit欠拟合可以通过增加模型的复杂程度或者补充特征来使模型完善,下文主要讨论关于过拟合的问题。 解决方案:增加训练样本数量选择合适的特征不充足的数据+所有的特征很容易导致过拟合,可以删掉一些不是非常重要的特征。但同样存在问题,这一过程中会丢弃部分数据,其中可能会有某些有用的。 正则化(regularization)正则化b.0 正则化如图,当参数w_3和w_4接近于0时,对应自变量的作用被极大地消减了,图像上呈现的很接近只存在w_1,w_2的,能更加泛化,这便达到我们的训练目的至此,为了让模型自己能找到合适的参数,又不至于过拟合,成本函数J可以增加一项以实现正则化λ:regularization parameter,至于参数b可处理可不处理前者用于拟合数据,后者用于使w_j保持在较小值λ是MSE和正则化项之间的权衡,指定了相对的重要性或者说如何在这两个目标之间找到平衡两种极端:λ=0:完全没有使用到正则化的技术,最终的预测图像仍然是十分摇摆不定的λ=10的十次方:正则化项的系数太大了,模型一直在尽力缩小,最终的结果就是w_j的值非常接近0,最终*f(x)*接近未经处理的bb.1 线性回归的正则化相较于以前没有正则化的版本只是多了橘色框的部分t,t见下文从另一角度,或者说从其本质看: 正则化对模型有着收缩的作用α是一个较小数,λ也很小,m比较大,1减去后是一个很接近1自己的数字数学求导过程:t_0即为前文的正则化项,t_0最终求得上文tb.2 逻辑回归的正则化与线性回归类似,只不过对于*f(x)*的定义不同 ## Publication Information - [jasonyang](https://paragraph.com/@jasonyang/): Publication homepage - [All Posts](https://paragraph.com/@jasonyang/): More posts from this publication - [RSS Feed](https://api.paragraph.com/blogs/rss/@jasonyang): Subscribe to updates