前面几节介绍的概率分布其实可以用一种统一的形式的来表示:
$$ p(x\mid\eta)=h(x)g(\eta)exp[\eta^T\mu(x)] $$这便是指数家族分布,其中$g(\eta)$可以看做归一化系数,下面来看看前面介绍过的几种分布变换为指数族分布后的形式
所以,$\eta=ln(\frac{\mu}{1-\mu})$,可以推得:
$$
\mu=\sigma(\eta)=\frac{1}{1+exp(-\eta)}
$$
所以对应的指数家族的函数关系为:
$$ h(x)=1,g(\eta)=1-\mu=1-\sigma(\eta)=\sigma(-\eta),\mu(x)=x $$所以:
$$ h(x)=1\\ g(\eta)=1\\ \mu(x)=(x_1,...,x_M)^T=x\\ \eta=(log\mu_1,...,log\mu_M)^T $$注意:$\eta_k$之间不是相互独立的,因为有一个约束$\sum_{k=1}^M\mu_k=1$
我们可以令:
$$ \eta=(\frac{\mu}{\sigma^2},\frac{-1}{2\sigma^2})^T\\ \mu(x)=(x,x^2)^T\\ $$最后可以推得:
$$ h(x)=(2\pi)^{2\frac{1}{2}}\\ g(\eta)=(-2\eta_2)^{\frac{1}{2}}exp(\frac{\eta_1^2}{4\eta_2}) $$剩下地,如多元高斯分布,Gamma分布,beta分布,狄利克雷分布,多项式分布,二项分布等都可以通过类似的方式转换为指数家族分布,那么问题就来了,将这些分布转换为指数族分布的形式有啥好处呢?自然是为了计算上更加方便,特别是求极大似然估计以及求共轭先验上,下面分别介绍
在做极大似然估计前我们先看一个一般的结论,由于指数族分布必然是一个概率分布,所以有:
$$ g(\eta)\int h(x)exp[\eta^T\mu(x)]dx=1 $$两边对$\eta$求梯度,有:
$$ \nabla g(\eta)\int h(x)exp[\eta^T\mu(x)]dx+g(\eta)\int h(x)exp[\eta^T\mu(x)]u(x)dx=0\\ \Leftrightarrow -\nabla g(\eta)\frac{1}{g(\eta)}=g(\eta)\int h(x)exp[\eta^T\mu(x)]u(x)dx=E[\mu(x)]\\ \Leftrightarrow -\nabla ln[g(\eta)]=E[\mu(x)] $$注意,上面的等式是恒成立的哦,我们自然就会猜想,如果是求极大似然估计,它的形式应该也会和上面的等式差不多才对,下面省略求解过程,直接写出极大似然估计的结果:
$$ -\nabla ln[g(\eta_{ML})]=\frac{1}{N}\sum_{n=1}^N\mu(x_n) $$显然,当$N\rightarrow\infty$时,有$\frac{1}{N}\sum_{n=1}^N\mu(x_n)=E[\mu(x)]$,以及$\eta_{ML}=\eta$
对于指数分布家族的任何成员,都存在一个共轭先验,可以写作如下的形式:
$$ p(\eta\mid \chi,\nu)=f(\chi,\nu)g(\eta)^\nu exp[\nu\eta^T\chi] $$其中,$f(\chi,\nu)$是归一化系数,为了验证该分布是共轭先验,让它与如下的似然函数相乘:
$$ p(X\mid\eta)=(\prod_{n=1}^Nh(x_n))g(\eta)^Nexp[\eta^T\sum_{n=1}^N\mu(x_n)] $$可推得:
$$ p(\eta\mid x,\chi,\nu)\propto g(\eta)^{\nu+N}exp[\eta^T(\sum_{n=1}^N\mu(x_n)+\nu\chi)] $$这与先验分布具有相同的形式
用下图对概率分布这几节的内容做个简单梳理: