Chapter 2 Overview of Supervised Learning
本章节是整本书内容的概览,主要是 supervised learning。定义了一些相关术语,介绍了简单的 learning 模型、问题、和困难。
learning 的过程,就是用 输入 去预测、估计 输出。以下定义会在整本书通用:
input -- output
preditors - responses
independent variables - dependent variables
input variables 的分类:
quantitative variables --- regression;
qualitative variables,又称为 categorical/discrete variables, factors。---- classification。
Symbols:
输入 $\mathbf{X}$
输出 $\mathbf{Y}$
预测 $\hat{\mathbf{Y}}$
基于线性模型的最小化方差,Residual sum of squares \begin{align} \textrm{RSS}(\beta) = (\mathbf{y} -\mathbf{X}\beta)^T(\mathbf{y} -\mathbf{X}\beta ) \end{align}
$k$-nearest neighbor (KNN) 拟合 \begin{align} \hat{Y}(x) = \frac{1}{k} \sum_{x_i \in N_k(x)} y_i \end{align} where $N_k(x)$ 是 $k$ 个最邻近 $x$ 的变量。
这两个方法正好是两个极端,是后续 learning 的基础:
Least Squares, 全局优化,得到平滑的曲线,低 variance 和高 bias。
Nearest-Neighbor Methods,局部优化,通常得到许多不规整的区域,高 variance 和低 bias。当 $k \rightarrow \infty$ 时,基本就与 least square 相似了。
我们需要一个 loss function $L(Y,f(X))$ 来衡量预测的好坏,例如 squared error loss: $L(Y,f(X)) = (Y-f(X))^2$。不同 loss function 的选择,会影响预测结果。
regression: $L_2$ or $L_1: E|Y-f(X)|$ loss function
classifier: $L(G,\hat{G})$ 是预测正确的奖励,然后基于概率求的最大值。最常用的如 Bayes classifier。
高维度预测的困难。对于一个 $p$ 维的变量,其空间是以 $p$ 的指数增长的,并且向外扩散增长,导致三个问题:
local 预测算法失灵。一个 local 的预测,需要大部分范围的变量。比如,每个变量维度都取 $\tfrac{1}{2}$, 那么得到的是 $\left(\tfrac{1}{2}\right)^p$。 反之,一个local的预测,比如只需要 $\left(\tfrac{1}{2}\right)^p$ 的数据,但是需要保证这些数据在每个维度占有 $\tfrac{1}{2}$ 的量。也就是说,这些变量已经不那么 local 了(因为 local 的好处是只取一小部分变量)。
边缘变量增加预测难度。数据越外围,量越大,这导致很多数据会堆积在最外层。而在 prediction 过程中,边缘点的 training 难度会高很多。令 $d(p,N)$ 为变量到中心的最短距离的 中值 (median),简易计算方法,所有点都在 $d(p,N)$ 外面的概率为 $\tfrac{1}{2}$,即 $\left(1 - \frac{d^p}{1^p}\right)^N =\tfrac{1}{2}$。从而可以得到