一.指数族分布的形式

前面几节介绍的概率分布其实可以用一种统一的形式的来表示:

$$ p(x\mid\eta)=h(x)g(\eta)exp[\eta^T\mu(x)] $$

这便是指数家族分布,其中$g(\eta)$可以看做归一化系数,下面来看看前面介绍过的几种分布变换为指数族分布后的形式

伯努利分布

$$ p(x\mid\mu)=\mu^x(1-\mu)^{1-x}\\ =exp[xlog\mu+(1-x)log(1-mu)]\\ =(1-\mu)exp[log(\frac{\mu}{1-\mu})x] $$

所以,$\eta=ln(\frac{\mu}{1-\mu})$,可以推得:
$$ \mu=\sigma(\eta)=\frac{1}{1+exp(-\eta)} $$

所以对应的指数家族的函数关系为:

$$ h(x)=1,g(\eta)=1-\mu=1-\sigma(\eta)=\sigma(-\eta),\mu(x)=x $$

单一观测的多项式分布

$$ p(x\mid\mu)=\prod_{k=1}^M\mu_k^{x_k}=exp[\sum_{k=1}^Mx_klog\mu_k] $$

所以:

$$ h(x)=1\\ g(\eta)=1\\ \mu(x)=(x_1,...,x_M)^T=x\\ \eta=(log\mu_1,...,log\mu_M)^T $$

注意:$\eta_k$之间不是相互独立的,因为有一个约束$\sum_{k=1}^M\mu_k=1$

一元高斯分布

$$ p(x\mid\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp[-\frac{1}{2\sigma^2}(x-\mu)^2]\\ =\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp[-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2]\\ =\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp[-\frac{1}{2\sigma^2}\mu^2]exp[-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x] $$

我们可以令:

$$ \eta=(\frac{\mu}{\sigma^2},\frac{-1}{2\sigma^2})^T\\ \mu(x)=(x,x^2)^T\\ $$


最后可以推得:

$$ h(x)=(2\pi)^{2\frac{1}{2}}\\ g(\eta)=(-2\eta_2)^{\frac{1}{2}}exp(\frac{\eta_1^2}{4\eta_2}) $$

剩下地,如多元高斯分布,Gamma分布,beta分布,狄利克雷分布,多项式分布,二项分布等都可以通过类似的方式转换为指数家族分布,那么问题就来了,将这些分布转换为指数族分布的形式有啥好处呢?自然是为了计算上更加方便,特别是求极大似然估计以及求共轭先验上,下面分别介绍

二.极大似然估计

在做极大似然估计前我们先看一个一般的结论,由于指数族分布必然是一个概率分布,所以有:

$$ g(\eta)\int h(x)exp[\eta^T\mu(x)]dx=1 $$

两边对$\eta$求梯度,有:

$$ \nabla g(\eta)\int h(x)exp[\eta^T\mu(x)]dx+g(\eta)\int h(x)exp[\eta^T\mu(x)]u(x)dx=0\\ \Leftrightarrow -\nabla g(\eta)\frac{1}{g(\eta)}=g(\eta)\int h(x)exp[\eta^T\mu(x)]u(x)dx=E[\mu(x)]\\ \Leftrightarrow -\nabla ln[g(\eta)]=E[\mu(x)] $$

注意,上面的等式是恒成立的哦,我们自然就会猜想,如果是求极大似然估计,它的形式应该也会和上面的等式差不多才对,下面省略求解过程,直接写出极大似然估计的结果:

$$ -\nabla ln[g(\eta_{ML})]=\frac{1}{N}\sum_{n=1}^N\mu(x_n) $$

显然,当$N\rightarrow\infty$时,有$\frac{1}{N}\sum_{n=1}^N\mu(x_n)=E[\mu(x)]$,以及$\eta_{ML}=\eta$

三.共轭先验

对于指数分布家族的任何成员,都存在一个共轭先验,可以写作如下的形式:

$$ p(\eta\mid \chi,\nu)=f(\chi,\nu)g(\eta)^\nu exp[\nu\eta^T\chi] $$

其中,$f(\chi,\nu)$是归一化系数,为了验证该分布是共轭先验,让它与如下的似然函数相乘:

$$ p(X\mid\eta)=(\prod_{n=1}^Nh(x_n))g(\eta)^Nexp[\eta^T\sum_{n=1}^N\mu(x_n)] $$

可推得:

$$ p(\eta\mid x,\chi,\nu)\propto g(\eta)^{\nu+N}exp[\eta^T(\sum_{n=1}^N\mu(x_n)+\nu\chi)] $$

这与先验分布具有相同的形式

四.小结一下

用下图对概率分布这几节的内容做个简单梳理:
avatar

In [ ]: