这一节,我们不抛硬币了,来抛一抛骰子,首先让我们从抛一次骰子开始,假设该骰子共有$K$面(没说非要是6面...),显然每次的结果只能是这$K$种可能中的一种,我们可以将抛出的结果表示成一个$K$维的one-hot向量(仅有一个维度为1,其余维度全部为0的向量):

$$ x=(0,...,0,1,0,...)^T $$

用参数$\mu_k$表示$x_k=1,k=1,2,...,K$的概率,所以全部的参数可以表示为:

$$ \mu=(\mu_1,\mu_2,...,\mu_K)^T $$

由于要满足概率分布,所以有$\mu_k\geq 0,\sum_{k=1}^T\mu_k=1$,那么抛一次骰子的概率分布可以表示为:

$$ p(x\mid \mu)=\prod_{k=1}^K\mu_k^{x_k} $$

一.多项分布

那么如果我们有$N$个骰子(参数相同),全部抛一次(相互独立),记出现第$k$面($k=1,2,...,K$)的次数为$m_k$,显然$m_k\geq 0,\sum_{k=1}^K=N$,那么关于$m_k$的的概率分布可以表示为:

$$ Mult(m_1,m_2,...,m_K\mid\mu,N)=\binom{N}{m_1m_2\cdots m_K}\prod_{k=1}^K\mu_k^{m_k} $$

这便是多项式分布,其中归一化系数为:

$$ \binom{N}{m_1m_2\cdots m_K}=\frac{N!}{m_1!m_2!\cdots m_K!} $$

直观上,归一化系数也很好理解,可以看做将$N$个骰子分成抛面数分别为$m_1,m_2,...,m_K$的$K$组的方案总数

极大似然估计

极大似然估计与前一节的求解类似,这里就直接写结果了:

$$ \mu_k^{ML}=\frac{m_k}{N} $$

类似地,为了避免极大似然估计带来的过拟合问题,我们可以为$\mu$引入一个先验分布,通常选择狄利克雷分布作为多项式分布的先验分布...

二.狄利克雷分布

为什么是狄利克雷分布勒?因为它与多项式分布共轭,它包含有类似于$\prod_{k=1}^K\mu_k^{m_k}$的项,定义如下:

$$ Dir(\mu\mid\alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1} $$

其中,$\alpha=(\alpha_1,...,\alpha_K)^T,\alpha_0=\sum_{k=1}^K\alpha_k$,如下图,是三个变量的狄利克雷分布,左图是$\alpha=(0.1,0.1,0.1)^T$的情况,中图是$\alpha=(1,1,1)^T$的情况,右图是$\alpha=(10,10,10)^T$的情况:

avatar

底部是$\mu_1,\mu_2,\mu_3$所张成的三角区域,由于需要满足$0\leq\mu_k \leq 1,\sum_{k=1}^3\mu_k=1$的条件,所以它们的取值范围只能被限制在一个三角区域内,该区域也是一个单纯形,如下图所示:

avatar

后验分布

显然,后验分布满足下面的关系:

$$ p(\mu\mid\alpha,m)\propto p(m\mid\mu)p(\mu\mid\alpha)\propto\prod_{k=1}^K\mu_k^{\alpha_k+m_k-1} $$

所以,它也是一个狄利克雷分布,形式如下:

$$ p(\mu\mid\alpha,m)=Dir(\mu\mid\alpha+m)=\frac{\Gamma(N+\alpha_0)}{\Gamma(\alpha_1+m_1)\cdots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K\mu_k^{\alpha_k+m_k-1} $$

其中,$m=(m_1,...,m_K),\alpha=(\alpha_1,...,\alpha_K),N=\sum_{k=1}^Km_k,\alpha_0=\sum_{k=1}^K\alpha_k$

贝叶斯推断

有了后验分布,我们就可以做贝叶斯推断了

$$ p(x_k=1\mid m,\alpha)\\ =\int p(x_k=1\mid\mu)p(\mu\mid\alpha,m)d\mu\\ =\int\mu_k\frac{\Gamma(N+\alpha_0)}{\Gamma(\alpha_1+m_1)\cdots\Gamma(\alpha_K+m_K)}\prod_{i=1}^K\mu_i^{\alpha_i+m_i-1}d\mu\\ =\frac{\Gamma(N+\alpha_0)}{\Gamma(\alpha_1+m_1)\cdots\Gamma(\alpha_K+m_K)}\int\mu_k\prod_{i=1}^K\mu_i^{\alpha_i+m_i-1}d\mu\\ =\frac{\Gamma(N+\alpha_0)}{\Gamma(\alpha_1+m_1)\cdots\Gamma(\alpha_K+m_K)}\frac{\Gamma(\alpha_1+m_1)\cdots\Gamma(\alpha_k+m_k+1)\cdots\Gamma(\alpha_K+m_K)}{\Gamma(N+\alpha_0+1)}\\ =\frac{\Gamma(N+\alpha_0)}{\Gamma(\alpha_k+m_k)}\frac{\Gamma(\alpha_k+m_k+1)}{\Gamma(N+\alpha_0+1)}\\ =\frac{\alpha_k+m_k}{N+\alpha_0} $$
In [ ]: