Notebook

Neural Networks¶

Chapter 11. Neural Networks

本章节总计24页，还包括好多例子。当 Neural networks and deep learning 已经被写成一本书的时候，24页只能是一个概览。 接下来，就让我们从统计学家的角度来看看神经网络吧。

Outline¶

Projection Pursuit Regerssion 。为什么要讲这个？说是这个给神经网络一些启发。好吧，我觉得启发于线性代数才对。

\begin{align} f(x) = \sum_{m=1}^M g_m(w_m^T X). \end{align}

Optimization 的套路，重复下列过程直至收敛：

给定 $w$，优化 $g$
给定 $g$，优化 $w$

Neural Networks，以一个经典的三层网络(输入 X，中间 Z，输出 Y)为例，又叫 vanilla neural net，single layer perceptron，single hidden layer back-propagation network.

\begin{align} Z_m = & \delta (\alpha _{0m} + \alpha_m^T X), \quad m=1,2,\cdots,M, \\ f_k(K) = & g_k(\beta_{0k} + \beta_k^T Z), \quad k= 1,2,\cdots,K \end{align}

$\delta()$ 为激活函数 activation function，例如 sigmoid $\delta(v) = 1/(1+e^{-v})$
$g()$ 为最终的转化函数，regression 的时候可以会 identity function $g_k(T) = T_k$, classifiction 的时候为 softmax $g_k(T) = \frac{e^{T_k}}{\sum_{l=1}^K e^{T_l}}$

Back-Propagation，BP算法。其实是个 gradient descent update 过程，但是在求导过程中巧妙地采用了 back-propagation 的方法节省了巨大的求导开销。

\begin{align} \beta_{km}^{(r+1)} = & \beta_{km}^{(r)} - \gamma_r \sum_{i=1}^N \frac{\partial R_i}{\partial \beta_{km}^{(r)}}, \\ \alpha_{ml}^{(r+1)} = & \alpha_{ml}^{(r)} - \gamma_r \sum_{i=1}^N \frac{\partial R_i}{\partial \beta_{ml}^{(r)}}, \\ \frac{1}{x_{il}}\frac{\partial R_i}{\partial \beta_{ml}^{(r)}} = & \delta'(\alpha_m^Tx_i)\sum_{k=1}^K \beta_{km} \frac{1}{z_{mi}}\frac{\partial R_i}{\partial \beta_{km}^{(r)}} \end{align}

BP 算法的精髓在最后一个 back-propagation 方程
$\gamma_r$ 是 leanrning rate
$N$ 是 batch learning 的 batch size
training epoch 是指一次对所有训练数据的遍历

具体内容¶

模型优化的讨论¶

Starting Values：权重 w 的初始值是 0 附件的随机数。如果全部取0，那模型就没办法更新了。太大又会得到很差的效果。
Overfitting：由于神经网络可以引入非常多的神经元，非常容易达到过拟合，所以模型训练到一定程度就可以停止了，不可以无休止的训练到100%。可以采用类似 redge regression 的思路，引入 weight decay，实现 regularization $\lambda$。即，给 error function $R(\theta)$ 引入 penalty $J(\theta)$，变成优化 $R(\theta) + \lambda J(\theta)$.

Cross-validation 可以估计 $\lambda$
weight elimination penalty

\begin{align} J(\theta) = \sum_{km} \frac{\beta_{km}^2}{1+\beta_{km}^2} +\sum_{ml}\frac{\alpha_{ml}^2}{1+\alpha_{ml}^2} \end{align}

Scaling of the Inputs。最好把输入数据标准化，mean = 0， std = 1.
Number of hidden units and layers. 越多越好。但是太多，会导致所有权重趋于0.