在对其他复杂的模型做分析之前,我们先来看看一个简单的模型:一元高斯分布,通过对它的分析和推导,便于我们对后续复杂模型的理解
一般来说第一步就是将变分分布推导出来,对于某一元高斯分布$N(x\mid \mu,\tau^{-1})$(这里用精度$\tau=\frac{1}{\sigma^2}$代替方差),假设我们有N个观测数据$X=\{x_1,x_2,...,x_N\}$,那么其似然函数可以写作:
$$ p(X\mid\mu,\tau)=(\frac{\tau}{2\pi})^{\frac{N}{2}}exp\{-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2\} $$接下来,让我们引入它的共轭先验分布,在概率分布那一章已经介绍过了,它是一个高斯-Gamma分布:
$$ p(\tau)=Gam(\tau\mid a_0,b_0)\\ p(\mu\mid\tau)=N(\mu\mid\mu_0,(\lambda_0\tau)^{-1}) $$那么,后验概率分布的形式,我们就可以写出来了:
$$
p(\mu,\tau\mid X)=\frac{p(X\mid\mu,\tau)p(\tau)p(\mu\mid\tau)}{p(X)}\\
=\frac{p(X\mid\mu,\tau)p(\tau)p(\mu\mid\tau)}{\int p(X\mid\mu,\tau)p(\tau)p(\mu\mid\tau)d\mu d\tau}\\
=...省略...
$$
上面不是真的要把后验概率分布的形式化简出来,只是想让大家感受一下它可能很复杂(想象一下高斯分布,Gamma分布乘在一起,还有求积分),这时就要用到第一节推导过的变分框架了,我们假设:
$$ q(\mu,\tau)=q_\mu(\mu)q_\tau(\tau) $$再次提醒一下,我们的目的是让$q(\mu,\tau)\rightarrow p(\mu,\tau\mid X)$,接下来按照第一节后面推导的表达式,可以知道最优解$q_\mu^*(\mu)$满足:
$$ ln\ q_\mu^*(\mu)=\int_\tau q_\tau(\tau)[ln\ p(X,\mu,\tau)] d\tau+const\\ =\int_\tau q_\tau(\tau)[ln\ p(X\mid\mu,\tau)+ln\ p(\mu\mid\tau)+ln p(\tau)] d\tau+const\\ =\int_\tau q_\tau(\tau)[ln\ p(X\mid\mu,\tau)+ln\ p(\mu\mid\tau)] d\tau+const(与\mu无关的项可以并入到const中)\\ =\int_\tau q_\tau(\tau)[-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2-\frac{\lambda_0\tau}{2}(\mu-\mu_0)^2]d\tau+const(这里再次将与\mu无关的项并入到const中)\\ =-\frac{E[\tau]}{2}[\lambda_0(\mu-\mu_0)^2+\sum_{n=1}^N(x_n-\mu)^2]+const\\ =-\frac{E[\tau]}{2}[\lambda_0\mu^2+\lambda_0\mu_0^2-2\lambda_0\mu_0\mu+\sum_{n=1}^N(x_n^2+\mu^2-2x_n\mu)]+const\\ =-\frac{E[\tau]}{2}[(\lambda_0+N)\mu^2-(2\lambda_0\mu_0+2\sum_{n=1}^Nx_n)\mu]+const(再次将与\mu无关的项并入到const中)\\ =-\frac{(\lambda_0+N)E[\tau]}{2}(\mu-\frac{\lambda_0\mu_0+\sum_{n=1}^Nx_n}{\lambda_0+N})^2+const(从const中提了一个与\mu无关的常数项出来) $$可以发现,$q_\mu^*(\mu)$服从一个高斯分布$N(\mu\mid\mu_N,\lambda_N^{-1})$,其中:
$$ \mu_N=\frac{\lambda_0\mu_0+N\bar{x}}{\lambda_0+N}\\ \lambda_N=(\lambda_0+N)E[\tau] $$继续看下$q_\tau^*(\tau)$,它需要满足如下等式:
$$ ln\ q_\tau^*(\tau)=\int_\mu q_\mu(\mu)[ln p(X\mid\mu,\tau)+ln\ p(\mu\mid\tau)]+ln\ p(\tau)+const\\ =\int_\mu q_\mu(\mu)[\frac{N}{2}ln\ \tau-\frac{N}{2}ln\ 2\pi-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2+\frac{1}{2}ln\ \lambda_0+\frac{1}{2}ln\ \tau-\frac{1}{2}ln\ 2\pi-\frac{\lambda_0\tau}{2}(\mu-\mu_0)]d\mu+ln\ \frac{b_0^{a_0}}{\Gamma(a_0)}+(a_0-1)ln\ \tau-b_0\tau+const\\ =\int_\mu q_\mu(\mu)[\frac{N}{2}ln\ \tau-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2+\frac{1}{2}ln\ \tau-\frac{\lambda_0\tau}{2}(\mu-\mu_0)]d\mu+(a_0-1)ln\ \tau-b_0\tau+const(合并与\tau无关的项目到const中)\\ =(\frac{N+1}{2}+a_0-1)ln\ \tau-\frac{\tau}{2}E_\mu[\sum_{n=1}^N(x_n-\mu)+\lambda_0(\mu-\mu_0)^2]-b_0\tau+const $$可以发现$q_\tau^*(\tau)$服从一个Gamma分布$Gam(\tau\mid a_N,b_N)$,其中:
$$ a_N=\frac{N+1}{2}+a_0\\ b_N=b_0+\frac{1}{2}E_\mu[\sum_{n=1}^N(x_n-\mu)^2+\lambda_0(\mu-\mu_0)^2] $$到这里,我们可以发现这样两点情况:
(1)无须指定$q_\mu(\mu)$和$q_\tau(\tau)$的函数形式,因为它们可以从似然函数和共轭先验自动推导出来;
(2)虽然我们假设了$q_\mu(\mu)$和$q_\tau(\tau)$相互独立,但求解结果表明它们是相互耦合的,即$q_\mu(\mu)$依赖于$q_\tau(\tau)$,反过来$q_\tau(\tau)$依赖于$q_\mu(\mu)$
接下来就要考虑如何求解的问题了,由上面推导的表达式,我们可以迭代求解,比如按该顺序:$E[\tau]\rightarrow q_\mu(\mu)\rightarrow E[\mu]/E[\mu^2]\rightarrow q_\tau(\tau)\rightarrow E[\tau] \rightarrow \cdots$,所以接下来的问题就是如何设置初始值$E[\tau]$,由于两个分布相互耦合,那么初始值一定会满足某些约束(为了简化计算,我们不妨令超参数$a_0=b_0=\mu_0=\lambda_0=0$(即无信息先验)),接下来推导一下,根据Gamma分布的性质,可以知道$q_\tau(\tau)$有:
$$ E[\tau]=\frac{a_N}{b_N} $$所以:
$$ \frac{1}{E[\tau]}=E[\frac{1}{N+1}\sum_{n=1}^N(x_n-\mu)^2]=\frac{N}{N+1}(\bar{x^2}-2\bar{x}E[\mu]+E[\mu^2]) $$而对于高斯分布$q_\mu(\mu)$有:
$$ E[\mu]=\mu_N=\bar{x} $$利用$var[\mu]=E[\mu^2]-E[\mu]^2=E[\mu^2]-\mu_N^2=\frac{1}{\lambda_N}$,可得:
$$ E[\mu^2]=\mu_N^2+\frac{1}{\lambda_N}=\bar{x}^2+\frac{1}{NE[\tau]} $$组合上面的几个表达式,我们就得到了$E[\tau]$的初始值:
$$ \frac{1}{E[\tau]}=\bar{x^2}-\bar{x}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\bar{x})^2 $$在此初始值的基础上,我们就可以不停的迭代优化下去了,大致的迭代效果如下图所示,其中绿线表示真实的后验概率分布$p(\mu,\tau\mid X),$图(a)表示随机初始的$q_\mu(\mu)q_\tau(\tau)$,用蓝色线表示,图(b)表示利用$E[\tau]$更新$q_\mu(\mu)$后的结果,图(c)表示$q_\tau(\tau)$更新后的结果,图(d)表示多轮迭代后的最终结果, $q_\mu(\mu)q_\tau(\tau)$用红色线表示
在写代码实现进行比较之前,我们首先需要知道真正的后验概率分布是怎样的?即上面第一部分中省略的内容,我们这里其实是可以写出解析形式的(不然上一章的内容就白介绍了...),下面推导一下,根据上面的表达式,我们知道:
$$ p(X\mid\mu,\tau)\propto \tau^{\frac{N}{2}}exp[-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2]\\ p(\mu\mid\tau)\propto \tau^{\frac{1}{2}}exp[-\frac{\lambda_0\tau}{2}(\mu-\mu_0)^2]\\ p(\tau)\propto\tau^{a_0-1}exp[-b_0\tau] $$所以:
$$ p(\mu,\tau\mid X)\propto p(X\mid\mu,\tau)p(\mu\mid\tau)p(\tau)\\ \propto \tau^{\frac{N}{2}}exp[-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2]\tau^{\frac{1}{2}}exp[-\frac{\lambda_0\tau}{2}(\mu-\mu_0)^2]\tau^{a_0-1}exp[-b_0\tau]\\ \propto\tau^{\frac{N+1}{2}+a_0-1}exp[-b_0\tau]exp[-\frac{\tau}{2}\sum_{n=1}^N(x_n-\mu)^2-\frac{\lambda_0\tau}{2}(\mu-\mu_0)^2]\\ \propto \tau^{\frac{N+1}{2}+a_0-1}exp[-b_0\tau]exp[-\frac{\tau}{2}\sum_{n=1}^Nx_n^2]exp[-\frac{\lambda_0\mu_0^2\tau}{2}]exp[-\frac{(\lambda_0+N)\tau}{2}(\mu-\frac{\sum_{n=1}^Nx_n+\lambda_0\mu_0}{\lambda_0+N})^2]\\ \propto \tau^{\frac{N+1}{2}+a_0-1}exp[-(b_0+\frac{1}{2}\sum_{n=1}^Nx_n^2+\frac{\lambda_0\mu_0^2}{2})\tau]exp[-\frac{(\lambda_0+N)\tau}{2}(\mu-\frac{\sum_{n=1}^Nx_n+\lambda_0\mu_0}{\lambda_0+N})^2] $$可以发现前半截$\tau^{\frac{N+1}{2}+a_0-1}exp[-(b_0+\frac{1}{2}\sum_{n=1}^Nx_n^2+\frac{\lambda_0\mu_0^2}{2})\tau]$刚好就是gamma分布的形式,后半截$exp[-\frac{(\lambda_0+N)\tau}{2}(\mu-\frac{\sum_{n=1}^Nx_n+\lambda_0\mu_0}{\lambda_0+N})^2]$刚好就是高斯分布的形式,所以后验概率分布的解析形式可以直接写出来啦:
$$ p(\mu,\tau\mid X)=N(\mu\mid \frac{\sum_{n=1}^Nx_n+\lambda_0\mu_0}{\lambda_0+N},[(\lambda_0+N)\tau]^-1)\cdot Gam(\tau\mid \frac{N+1}{2}+a_0,b_0+\frac{1}{2}\sum_{n=1}^Nx_n^2+\frac{\lambda_0\mu_0^2}{2}) $$同样地,我们令$a_0=b_0=\lambda_0=\mu_0=0$,我们可以定义后验概率分布的形式了
import numpy as np
from scipy.special import gamma
def post_prob_func(mu,tau,X):
#先计算高斯部分的值
u=np.mean(X)
sigma=np.sqrt(1/(len(X)*tau))
gassian_value=1/(np.sqrt(2*np.pi)*sigma)*np.exp(-1*np.power(mu-u,2)/(2*sigma**2))
#再计算gamma部分的值
a=len(X)/2+0.5
b=0.5*np.sum(X*X)
gamma_value=1/gamma(a)*np.power(b,a)*np.power(tau,a-1)*np.exp(-1*b*tau)
return gassian_value*gamma_value
# 从标准高斯分布随机采样100个点
np.random.seed(0)
X=np.random.randn(100)
import matplotlib.pyplot as plt
%matplotlib inline
def plot_contourf(data,func,lines=3):
n = 256
x = np.linspace(data[:,0].min(), data[:,0].max(), n)
y = np.linspace(data[:,1].min(), data[:,1].max(), n)
X, Y = np.meshgrid(x,y)
C = plt.contour(X,Y, func(np.c_[X.reshape(-1),Y.reshape(-1)]).reshape(X.shape), lines, colors='g')
mu_range=np.linspace(-0.2,0.3,100)
tau_range=np.linspace(0.7,1.3,100)
data=np.vstack((mu_range,tau_range)).T
plot_contourf(data,lambda x:post_prob_func(x[:,0],x[:,1],X),8)
接下来就要训练$q_\mu(\mu)q_\tau(\tau)$去近似上面的后验分布了,首先定义绘图比较函数
def plot_vs_contourf(data,func1,func2,lines=3):
n = 256
x = np.linspace(data[:,0].min(), data[:,0].max(), n)
y = np.linspace(data[:,1].min(), data[:,1].max(), n)
X, Y = np.meshgrid(x,y)
plt.contour(X,Y, func1(np.c_[X.reshape(-1),Y.reshape(-1)]).reshape(X.shape), lines, colors='g')
plt.contour(X,Y, func2(np.c_[X.reshape(-1),Y.reshape(-1)]).reshape(X.shape), lines, colors='r')
定义$q_\mu(\mu)q_\tau(\tau)$的函数形式
def joint_dist_func(mu,tau,u,sigma,a,b):
gassian_value=1/(np.sqrt(2*np.pi)*sigma)*np.exp(-1*np.power(mu-u,2)/(2*sigma**2))
gamma_value=1/gamma(a)*np.power(b,a)*np.power(tau,a-1)*np.exp(-1*b*tau)
return gassian_value*gamma_value
接下来进行迭代优化,分别截取中间过程的结果进行展示
#计算初始的E[\tau]
E_tau=1.0/np.mean((X-np.mean(X))*(X-np.mean(X)))
#进行epoch次迭代
epoch=3
split_point=np.linspace(0,epoch-1,3).astype(int).tolist()
plt.figure(figsize = (18,4))
for count in range(0,epoch):
#高斯分布的参数
u=np.mean(X)
lambd=len(X)*E_tau
sigma=np.sqrt(1.0/lambd)
#gamma分布的参数
a=(len(X)+1)/2
b=np.sum(X*X)/2-len(X)*u*u+len(X)/2*(np.power(sigma,2.0)+np.power(u,2.0))
E_tau=a/b
if count in split_point:
plt.subplot(1,3,split_point.index(count)+1)
plt.title("N="+str(count))
plot_vs_contourf(data,lambda x:post_prob_func(x[:,0],x[:,1],X),lambda x:joint_dist_func(x[:,0],x[:,1],u,sigma,a,b),8)
可以发现一开始就基本收敛了....,接下来我们再测试一下,如果$E[\tau]$一开始随便取值会怎样,按之前的推导,应该也是会收敛的
#计算初始的E[\tau]
E_tau=0.1
#进行epoch次迭代
epoch=3
split_point=np.linspace(0,epoch-1,3).astype(int).tolist()
plt.figure(figsize = (18,4))
for count in range(0,epoch):
#高斯分布的参数
u=np.mean(X)
lambd=len(X)*E_tau
sigma=np.sqrt(1.0/lambd)
#gamma分布的参数
a=(len(X)+1)/2
b=np.sum(X*X)/2-len(X)*u*u+len(X)/2*(np.power(sigma,2.0)+np.power(u,2.0))
E_tau=a/b
if count in split_point:
plt.subplot(1,3,split_point.index(count)+1)
plt.title("N="+str(count))
plot_vs_contourf(data,lambda x:post_prob_func(x[:,0],x[:,1],X),lambda x:joint_dist_func(x[:,0],x[:,1],u,sigma,a,b),8)
结果符合我们的预期,所以一开始其实没必要根据$E[\tau],E[\mu],E[\mu^2]$之间的约束去计算一个初始值,直接随机定义一个就可以哒
根据这一页note的内容,我们将变分推断的求解流程做一个小结:
(1)求所有变量(包括观测变量、隐变量、参数)的联合概率分布,比如一开头我们就列出了$p(X,\mu,\tau)$(只是将它拆开为$p(X\mid\mu,\tau),p(\mu\mid\tau),p(\tau)$这三部分分别表示);
(2)求变分分布,即通过本章第一节的公式:
$$ ln\ q_j^*(Z_j)=E_{i\neq j}[ln\ p(X,Z)]+const $$求各隐变量(参数)对应的变分分布形式;
(3)迭代法求解最优变分分布,第(2)步求出的各变量(组)的变分分布之间是耦合,所以通常会通过迭代的方式求得它的最优形式(即$q(Z)$分布的最优参数);
(4)将变分分布应用到下游任务(需要用到后验概率分布的地方都可以用变分分布替代了,该页note没有涉及到这部分内容)