ML-Andrew Ng 学习笔记(1) Supervised Learning & Unsupervised Learning

笔者今年只有大一,虽然课程内有讲ml但是觉得不应止于此,想额外学一部分,故见解不到位的也请谅解(虽然是写给自己的==)

以下将会讨论监督学习(supervised learning)和无监督学习(unsupervised learning)的特点及实例,同时附上笔者个人对此的见解。

监督学习:根据数据(“right answer”given)拟合出一条直线或者曲线,进而使模型能给出更多right answer

  • 回归(Regression)

  • 分类(Classification)

Regression

例子1:一个学生收集了某市的房屋尺寸大小及其对应价格的一些数据,现在甲有一栋750平方英尺的房子,如何估计一下大概能卖掉多少钱?

a regression problem
a regression problem

Regression: Predict continuous valued output

  • 个人理解为变量之间有着非常强的数学关系输入与输出都是数字

Classification

例子2:某人收集了一部分与乳腺癌肿瘤相关的数据,现在乙有一个肿瘤,如何判断该肿瘤是良性还是恶性?

a classification problem
a classification problem

Classification: Predict discrete valued output(0 or 1)

  • 不同于回归,输出结果是0与1代表两类,不是单纯意义上的数字,代表分类、等级

  • 分类结果不一定是只有两种

  • 更加决策性

例子3:该人更进一步收集了相关数据,补充了年龄

another classification problem
another classification problem

对于离散和连续的理解:

  • 房价将精度调整之后可以再次细分,同时两个相邻的房价样本之间,客观上可以存在无数个可能,算作连续数据

  • 但良性与不良性之间,只有这两种可能性,诸如此类,计数型,分类型,等级型的,算作离散数据

  • (但是有一说一通常情况下收集的数据都应该算作离散型吧)

总结:监督学习适用于预测具体数值、对某样事物进行决策,是一种明确目的的训练方式

无监督学习:将数据直接丢给模型,没有明确标签,让模型自己处理

  • 聚类(Clustering)- K-means聚类

  • 聚类(Clustering)- 层次聚类

  • 降维-主成分分析(PCA)

  • 降维-奇异值分解(SVD)

clustering problem
clustering problem

例子4:有很多违法行为都需要"洗钱",这些洗钱行为跟普通用户的行为是不一样的,到底哪里不一样?

如果通过人为去分析是一件成本很高很复杂的事情,我们可以通过这些行为的特征对用户进行分类,就更容易找到那些行为异常的用户,然后再深入分析他们的行为到底哪里不一样,是否属于违法洗钱的范畴。

  • 虽然我们不知道这些分类意味着什么,但是通过这种分类,可以快速排出正常的用户,更有针对性的对异常行为进行深入分析。

例子5:鸡尾酒问题-将人声分离

SVD problem
SVD problem

总结:无监督学习适用于处理训练前也不清楚结果的数据,是一种无明确目的的训练方式

无监督学习先写这么多吧,以后再补充吧

第一次写

参考来源:

https://zhuanlan.zhihu.com/p/62075440

https://www.coursera.org/learn/machine-learning