对于聚类,其实之前已经有算法涉及了,比如GMM,这一章开始再次做系统介绍。聚类的核心思想套用一句俗语:“物以类聚,人与群分”,这里面首先有一个“距离”的概念,“聚”是因为“距离近”,“分”是因为“距离远”,下面将常用的“距离”罗列一下,首先定义,样本$x_i=(x_{i1},x_{i2},...,x_{in})$与样本点$x_j=(x_{j1},x_{j2},...,x_{jn})$
这里,$p\geq 1$,当$p=2$时称为欧氏距离,$p=1$称为曼哈顿距离,$p=\infty$称为切比雪夫距离,这时:
$$ d_{ij}=\max_{k}\left|x_{ik}-x_{jk}\right| $$这里,$S$为整个样本集$X=(x_{ij})_{m\times n}$的协方差矩阵
接下来,我们继续考虑聚类效果的好坏评估标准,显然需要符合我们期望的“物以类聚,人以群分”,有了“距离”的定义之后,我们可以换一个表述:类内距离尽可能小,类间距离尽可能大,所以我们进一步需要对类内距离和类间距离做一个定义
类中任意两个样本之间的最大距离 $$ diam(G)=\max_{x_i,x_j\in G}d_{ij} $$
类内任意两样本之间距离的均值
$$ avg(G)=\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij} $$这里,$n$为样本的维数
设两类分别为$G_q$和$G_p$
这里,$\bar{x}_p$和$\bar{x}_q$分别为类$G_p$和$G_q$的中心点
所以,我们在此基础上可以构造既能反映类内距离,又能反映类间距离的指标
显然,DBI越小越好
显然,DI越大越好
其中,$a(\cdot)$表示当前样本与簇内其他样本的平均距离,所以$a(\cdot)$越小,反映了该簇越聚集,$b(\cdot)$表示当前样本与其他簇的平均距离的最小值,所以$b(\cdot)$越大,表示与其他簇越分离,而轮廓系数SCI便是所有样本轮廓系数的均值,可以看出SCI越大越好