Deep Learning Basic¶
ML = Looking for a function 寻找一个映射
- Speed Recognition
- Image Recognition
Model f1 性能优于 model f2;通过收集的Training data输入model后输出的正确性来找到表现最好的model,这是一种监督学习(Supervised Learning)
- Playing Go 下围棋
- Dialogue System
3 steps for Deep Learning:
1. define a set of function¶
目前使用的模型便是神经网络。
1.1 Neural Network¶
- Neuron
常见激活函数:Sigmoid、tanh、ReLu
ReLu最常用 -- 计算简单、不会太容易出现梯度消失
- Network
采用全连接(fully connect feedforward net):
- 计算简单:看作输入向量 X 和权重矩阵 W 相乘,也比较好求导
-
结构易变化
-
Deep or Wide?
越深的神经网络记忆能力越好,但对算力要求越高
2. goodness of function¶
- Training Data
Softmax 用于分类回归:
- Loss function
loss越少, 说明模型拟合效果越好. 利用MSE求loss,再求和。
3. pick the best function¶
优化过程:通过对损失函数求梯度,确定优化方向,从而一步步接近最优解
对学习率这个超参的设置很重要。
只能找到local Minima,无法确定是全局最优解。且有可能停在saddle point(梯度消失情况下)