Chapter 11. Neural Networks
本章节总计24页,还包括好多例子。当 Neural networks and deep learning 已经被写成一本书的时候,24页只能是一个概览。 接下来,就让我们从统计学家的角度来看看神经网络吧。
Optimization 的套路,重复下列过程直至收敛:
Starting Values:权重 w 的初始值是 0 附件的随机数。如果全部取0,那模型就没办法更新了。太大又会得到很差的效果。
Overfitting:由于神经网络可以引入非常多的 神经元,非常容易达到过拟合,所以模型训练到一定程度就可以停止了,不可以无休止的训练到100%。可以采用类似 redge regression 的思路,引入 weight decay,实现 regularization $\lambda$。即,给 error function $R(\theta)$ 引入 penalty $J(\theta)$,变成优化 $R(\theta) + \lambda J(\theta)$.
\begin{align} J(\theta) = \sum_{km} \frac{\beta_{km}^2}{1+\beta_{km}^2} +\sum_{ml}\frac{\alpha_{ml}^2}{1+\alpha_{ml}^2} \end{align}
Scaling of the Inputs。最好把输入数据标准化,mean = 0, std = 1.
Number of hidden units and layers. 越多越好。但是太多,会导致所有权重趋于0.