Chapter 8. Model Inference and Averaging
本书中大部分模型的拟合,都是通过
minimizing a sum of squares for regression, or by minimizing cross-entropy for classification.
单独摘引这句,因为最近在 run 一个 tensorflow 的例子,把别人的一个 regression 的代码用来做 classification,发现结果很差。 Google 后,把优化目标从 RMS (RMSPropOptimizer) 改成了 Entropy (tf.nn.sigmoid_cross_entropy_with_logits,AdamOptimizer) 就解决了,当时感觉特别神奇。今天读到这句话,原来是个常识。。。好吧,我要坚持读完这本书
当然,本章节重点不是这两个,而是更 general 的讨论 maximum likelihood。嗯,通信里面,输出信号的判别,其实就是 maximum likelihood。
,其中 $l(\theta;z_i)= \log g_{\theta}(z_i)$ 被称为 log-likelihood component
基于已有的参数分布 $\Pr(\theta)$,更新参数 $\theta$。当然,最终目的是预测最新的数据分布,predictive distribution \begin{align} \Pr(z^{new}|\mathbf{z}) = \int \Pr(z^{new}|\theta) \Pr(\theta|\mathbf{z})d\theta. \end{align}
1. Initialize parameters.
2. Expectation likelihood.
3. Maximization the likelihood by reestimate parameters.
4. Iterate steps 2 and 3 until convergence.
Gibbs sampling, a Markov chain Monte Carlo approach. 没怎么看懂,大概就是重复很多次后,Markov chain 的转移概率 $\Pr(U_j|U_1,U_2,\cdots,U_{j-1},U_{j+1},\cdots, U_K)$ 会达到一个平衡,那么这个时候的采样就靠谱了,系统就稳定了,参数就得到了(通常需要求平均)。我们跑仿真就是这个思路啊
Model fitting. 之前都是根据不同的数据,产生最 fitting 的模型。这里介绍了三种方法,是基于不同 bootstrap 得到的模型,然后 fitting 得到一个相对最好的最终模型。
\begin{align} \hat{w}^{st} = \arg \min_{w} \sum_{i=1}^N \left[ y_i - \sum_{m=1}^M w_m \hat{f}_m^{-i}(x_i) \right]^2 \end{align}
\begin{align} \hat{b} = \arg \min_b \sum_{i=1}^N [y_i -\hat{f}_m^{-i}(x_i) ]^2 \end{align}
本质上, in essence the bootstrap is a computer implementation of nonparametric or parametric maximum likelood.
Bayesian 可以表示为 \begin{align} posterior = \frac{likelihood \cdot prior}{evidence} \end{align} 同时可以参考 Bayesian vs. Frequentist的讨论。
Bayesian inference 贝叶斯推断 基于先验概率 $P(B)$ 和后验概率 $P(B|A)$; 而 Frequentist inference 频率论推断(大概是这么翻译的吧)只看 $P(B|A)$。两者互有优略,相关文献说,19世纪主要是 Bayesian, 20世纪开始流行 Frequentist, 到了21世纪,由于计算能力的发展以及大数据的流行,Bayesian 再次主导。
我认为,Bayesian 的先验概率 $P(B)$ 容易引入观察者误差,这正式 Frequentist 不采用它的原因。但是,随着大数据的盛行,$P(B)$ 可以被 Bootstrap 等技术很好的描述,所以 Bayesian 又再次胜出。