Introduction

Machine Learning

The field of study that gives computers the ability to learn without being explicitly programmed.
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
Supervised Learning
Unsupervised Learning
Reinforcement learning
Recommender systems

根据训练数据是否有标记信息，可大致把学习任务分成两类，监督学习和无监督学习。前者主要包括分类和回归。后者主要有聚类。

需要注意的是，机器学习的目标是学得的模型可以很好的适用“新样本”，而不仅是在训练样本上工作良好，即使对于聚类这样的无监督学习任务，也希望他能适用于新样本，称为泛化 generaliazation

measure the accuracy of our hypothesis function by using a cost function

ML1.2CostFunction.png

This function is otherwise called the “Squared error function”, or “Mean squared error”.

1\2 后面梯度下降的时候会消掉
1\m 是求和的平均

理解 Cost Function
先把参数 Θ0 看作零使参数只有一个的时候

ML1.2CostFunctionIntuition1

左面是假设函数，在确定Θ1值的情况下可以画出一条直线这时候就可以计算出相应的Θ值在右侧cost函数里的对应值
明显可以看出 Θ=1 代价函数值为零完全拟合

那么加一个参数 Θ0 的话相应的cost function的函数图像就会是

ML1.2CostFunctionIntuition2

ML1.3GradientDecent

step1 确定初始值 Θ0 Θ1
step2 环顾四周确定一个方向可以下降最快往下走一步
重复step2 直到走到局部最低点

特点每一次迈的步长不一样那么下一步的方向可能就不一样
出发点不一样最后的局部最低点可能也不一样

ML1.3GradientDecentAlgorithm

ɑ 是 learning rate 控制下山的步长后面是一个求偏导是方向
ɑ 太小下降很慢
ɑ 太大可能错过最低点导致无法收敛甚至发散
以为求导数越接近最低点倒数越接近零所以ɑ*后面导数值就越小以至于步长越小最后收敛

但是要同时更新 Θ0 和 Θ1
怎么办呢？
ML1.3GradientDecentAlgorithm2