Toggle navigation
Yang's Blog
主页
week 9
Machine Learning
week 2
week 3
week 4
week 5
week 6
week 7
week 8
week 10
End_to_End_Learning
About Me
归档
标签
week 1
0
无
2017-07-25 22:07:54
4
0
hljyy96@126.com
1.Supervised Learing 基本思想:数据集中每个样本都有相应的“正确答案”,我们可以根据这些答案进行预测。 eg:price of the house、breast cancer 分类:regression、classification 2.Unsupervised Learning 基本思想:数据集中的样本不能明确地反应一个“特征“,需要根据大量数据进行类聚。 eg:Google news、DNA、cocktail banquet 3.Linear regression with one variable ![title](https://leanote.com/api/file/getImage?fileId=5976988cab644135b400064c) 由于是单变量,所以一种可能的表达方式为:$h_\theta(x)=\theta_0+\theta_1x$ 4.cost function: 代价函数为了帮助拟合最好的预测函数,最大程度上减小建模误差(modeling error:difference between training set and actual set) 用$J(\theta_0,\theta_1)$表示cost function, 由于cost function为了最大程度上减小modeling error,即保证$h_\theta(x^{(i)})-y^{(i)}$最小,所以将所有training set和actual set求差并且进行平方,得到$\frac 1 m\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ 为了方便cost function求导,在前面乘上$\frac 1 2$ 最后结果为:$J(\theta_0,\theta_1)=\frac 1 {2m}\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ 5.cost function intuition: 等高线图 ![title](https://leanote.com/api/file/getImage?fileId=5976988cab644135b4000649) ![title](https://leanote.com/api/file/getImage?fileId=5976988cab644135b400064d) 6.gradient decent 中心思想:首先随机选取一点,向四周选取能够使$J(\theta_0,\theta_1)$下降最多的路线,重复上述步骤直到下降到最低点。由于参数是随机选取的,所以我们无法判断取到的局部最小值是否为全局最小值。 batch gradient descent公式: repeat until convergence: { $\theta _j:=\theta _j-\alpha\mathrm{\frac d {d\theta}}J(\theta_0,\theta_1)$ (j=0/j=1) } 其中$\alpha$为学习速率,它决定了沿着cost function下降时的步子有多大 7.gradient decent intuition 若cost function为下图所示: ![title](https://leanote.com/api/file/getImage?fileId=5976988cab644135b400064a) 当j=1的时候,$\theta _1:=\theta _1-\alpha\mathrm{\frac d {d\theta}}J(\theta_1)$ 对$\theta _1$进行求导,可以看出此时斜率为正,$\theta _1$下降了$\alpha$乘一个正斜率的大小,所以当$\alpha$太小时下降速率会很小,导致效率很低,当$\alpha$太大时可能导致$\theta _1$在最低点左右两侧摇摆导致发散,无法进行递归下降。 8.gradient decent for linear regression ![title](https://leanote.com/api/file/getImage?fileId=5976988cab644135b400064b) 为求出cost function的导数,将之前求得的cost function$J(\theta_0,\theta_1)=\frac 1 {2m}\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ 两边对$\theta$求导得: $\mathrm{\frac d {d\theta _j}}J(\theta_0,\theta_1)$=$\mathrm{\frac d {d\theta _j}}\frac 1 {2m}\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ 当j=0时 $\mathrm{\frac d {d\theta _0}}J(\theta_0,\theta_1)$=$\mathrm{\frac d {d\theta _0}}\frac 1 {2m}\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ =$\frac 1 m \sum \limits ^m _{i=1} (h_\theta(x^{(i)})-y^{(i)}) $ 当j=1时 $\mathrm{\frac d {d\theta _1}}J(\theta_0,\theta_1)$=$\mathrm{\frac d {d\theta _1}}\frac 1 {2m}\sum \limits ^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$ =$\frac 1 m \sum \limits ^m _{i=1} (h_\theta(x^{(i)})-y^{(i)}).x^{(i)}) $ 算法相应的改为: repeat { $ \theta _0:=\alpha \frac 1 m \sum \limits ^m _{i=1} (h_\theta (x^{(i)})-y^{(i)})$ $ \theta _1:=\alpha \frac 1 m \sum \limits ^m _{i=1} ((h_\theta(x^{(i)})-y^{(i)}).x^{(i)})$ } 每进行一次下降,算法会对所有的training set中的数据进行处理,并进行求和运算,所以称为批量梯度下降。
week 8
0
赞
4 人读过
新浪微博
微信
更多分享
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航