Notebook

一.距离度量¶

对于聚类，其实之前已经有算法涉及了，比如GMM，这一章开始再次做系统介绍。聚类的核心思想套用一句俗语：“物以类聚，人与群分”，这里面首先有一个“距离”的概念，“聚”是因为“距离近”，“分”是因为“距离远”，下面将常用的“距离”罗列一下，首先定义，样本$x_i=(x_{i1},x_{i2},...,x_{in})$与样本点$x_j=(x_{j1},x_{j2},...,x_{jn})$

明科夫斯基距离¶

$$ d_{ij}=(\sum_{k=1}^n \left|x_{ik}-x_{jk}\right|^p)^{\frac{1}{p}} $$

这里，$p\geq 1$，当$p=2$时称为欧氏距离，$p=1$称为曼哈顿距离，$p=\infty$称为切比雪夫距离，这时：

$$ d_{ij}=\max_{k}\left|x_{ik}-x_{jk}\right| $$

马氏距离¶

$$ d_{ij}=\left[(x_i-x_j)^TS^{-1}(x_i-x_j)\right]^{\frac{1}{2}} $$

这里，$S$为整个样本集$X=(x_{ij})_{m\times n}$的协方差矩阵

夹角余弦¶

$$ s_{ij}=\frac{x_i^Tx_j}{[x_i^Tx_i\cdot x_j^Tx_j]^{\frac{1}{2}}}\\ d_{ij}=1-s_{ij} $$

二.类的定义¶

有了“距离”的定义，我们就可以进一步定义类了，设$T$为给定的正数，若样本集合$G$中任意两个样本$x_i,x_j$，有：

$$ d_{ij}\leq T $$

则称$G$为一个类（簇）

三.性能评估¶

接下来，我们继续考虑聚类效果的好坏评估标准，显然需要符合我们期望的“物以类聚，人以群分”，有了“距离”的定义之后，我们可以换一个表述：类内距离尽可能小，类间距离尽可能大，所以我们进一步需要对类内距离和类间距离做一个定义

类内距离¶

类内最大距离¶

类中任意两个样本之间的最大距离 $$ diam(G)=\max_{x_i,x_j\in G}d_{ij} $$

类内平均距离¶

类内任意两样本之间距离的均值

$$ avg(G)=\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij} $$

散布矩阵¶

$$ A_G=\sum_{i=1}^{n_G}(x_i-\bar{x_G})(x_i-\bar{x_G})^T,\bar{x_G}=\sum_{i=1}^{n_G}x_i $$

协方差矩阵¶

$$ S_G=\frac{1}{n-1}A_G $$

这里，$n$为样本的维数

类间距离¶

设两类分别为$G_q$和$G_p$

最短距离¶

$$ d_{min}(G_p,G_q)=\min\{d_{ij}\mid x_i\in G_p,x_j\in G_q\} $$

最长距离¶

$$ d_{max}(G_p,G_q)\max\{d_{ij}\mid x_i\in G_p,x_j\in G_q\} $$

中心距离¶

$$ d_{cen}(G_p,G_q)=d_{\bar{x}_p\bar{x}_q} $$

这里，$\bar{x}_p$和$\bar{x}_q$分别为类$G_p$和$G_q$的中心点

平均距离¶

$$ d_{avg}(G_p,G_q)=\frac{1}{n_{G_p}n_{G_q}}\sum_{x_i\in G_p}\sum_{x_j\in G_q}d_{ij} $$

性能评估¶

所以，我们在此基础上可以构造既能反映类内距离，又能反映类间距离的指标

DB 指数¶

$$ DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\neq i}(\frac{avg(G_i)+avg(G_j)}{d_{cen}(G_i,G_j)}) $$

显然，DBI越小越好

Dunn指数¶

$$ DI=\min_{1\leq i\leq k}\left\{\min_{j\neq i}(\frac{d_{min}(G_i,G_j)}{\max_{1\leq l\leq k}diam(G_l)})\right \} $$

显然，DI越大越好

轮廓系数¶

$$ SCI=\frac{1}{m}\sum_{i=1}^m\frac{b(x_i)-a(x_i)}{max(b(x_i),a(x_i))} $$

其中，$a(\cdot)$表示当前样本与簇内其他样本的平均距离，所以$a(\cdot)$越小，反映了该簇越聚集，$b(\cdot)$表示当前样本与其他簇的平均距离的最小值，所以$b(\cdot)$越大，表示与其他簇越分离，而轮廓系数SCI便是所有样本轮廓系数的均值，可以看出SCI越大越好

In [ ]: