【学习笔记】 吴恩达-机器学习
网课知识点汇总
监督学习
预测:算法通过分析训练样本,学习到一个从输入到输出的映射关系,然后利用这个映射关系对新的、未见过的样本进行预测。是一种回归,预测无限多个可能的数字中的任意一个。
例子:使用多个房屋面积-价格的数据训练模型,让模型对某一房屋面积对应的价格进行预测
分类:只预测一小部分可能的输出或类别,可以有多个输入值。
例子:识别肿瘤分类为良性和恶性
非监督学习
聚类:不提前为算法提供示例,获取没有标签的数据,让算法尝试自动进行分类
例子:根据基因把人分为不同类型
异常检测:检测异常事件
例子:财务欺诈
降维:将数据集压缩,同时尽可能少地丢失信息
线性回归模型
$f_{w,b}(x)=wx+b$
一种特殊类型的监督学习模型
另一种常见的监督学习模型是分类模型:预测类别或离散类别
分类和回归的区别:在分类中只有少量可能的输出类型,在回归中可以输出无限多可能的数字
训练集:用于训练模型的数据集,包括input和output
损失函数(成本函数)
$\hat{y}^{(i)}=f_{w,b}(x^{(i)})$
$J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}\bigl(f_{w,b}\bigl(x^{(i)}\bigr)-y^{(i)}\bigr)^{2}$
m 是训练示例的数量,J 取决于 w,线性回归的目标是找到参数 w 或参数 w 和 b,使成本函数 J 的值最小
线性回归的平方误差成本函数只有单一的全局最小值
梯度下降
梯度下降是尝试最小化函数的算法,$α$是0到1之间的学习率,是要调整的参数,控制更新模型参数$w$和$b$时采取的步骤大小
最后部分是导数,相当于有正有负的斜率,当接近局部最小值时,导数会变小,即使学习率不变
$w=w-\alpha:\frac{\partial}{\partial w}J(w,b)$
$b=b-\alpha\frac{\partial}{\partial b}J(w,b)$,损失函数中的$w$是更新之前的值
$\frac{\partial}{\partial w}J(w,b)=\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})x^{(i)}$
$\frac{\partial}{\partial b}J(w,b)=\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})$
学习率
如果学习率过小,梯度下降会起作用但很慢
如果学习率过大,可能永远不会达到最小值(可能无法收敛,甚至可能发散)
【学习笔记】 吴恩达-机器学习