Notebook

Overview¶

Chapter 2 Overview of Supervised Learning

本章节是整本书内容的概览，主要是 supervised learning。定义了一些相关术语，介绍了简单的 learning 模型、问题、和困难。

Terminology¶

learning 的过程，就是用输入去预测、估计输出。以下定义会在整本书通用：

input variables 的分类：

quantitative variables --- regression；
qualitative variables，又称为 categorical/discrete variables, factors。---- classification。

Symbols：

基于线性模型的最小化方差，Residual sum of squares \begin{align} \textrm{RSS}(\beta) = (\mathbf{y} -\mathbf{X}\beta)^T(\mathbf{y} -\mathbf{X}\beta ) \end{align}

$k$-nearest neighbor (KNN) 拟合 \begin{align} \hat{Y}(x) = \frac{1}{k} \sum_{x_i \in N_k(x)} y_i \end{align} where $N_k(x)$ 是 $k$ 个最邻近 $x$ 的变量。

这两个方法正好是两个极端，是后续 learning 的基础：

Least Squares，全局优化，得到平滑的曲线，低 variance 和高 bias。
Nearest-Neighbor Methods，局部优化，通常得到许多不规整的区域，高 variance 和低 bias。当 $k \rightarrow \infty$ 时，基本就与 least square 相似了。

我们需要一个 loss function $L(Y,f(X))$ 来衡量预测的好坏，例如 squared error loss: $L(Y,f(X)) = (Y-f(X))^2$。不同 loss function 的选择，会影响预测结果。

高维度预测的困难。对于一个 $p$ 维的变量，其空间是以 $p$ 的指数增长的，并且向外扩散增长，导致三个问题：

local 预测算法失灵。一个 local 的预测，需要大部分范围的变量。比如，每个变量维度都取 $\tfrac{1}{2}$, 那么得到的是 $\left(\tfrac{1}{2}\right)^p$。反之，一个local的预测，比如只需要 $\left(\tfrac{1}{2}\right)^p$ 的数据，但是需要保证这些数据在每个维度占有 $\tfrac{1}{2}$ 的量。也就是说，这些变量已经不那么 local 了（因为 local 的好处是只取一小部分变量）。
边缘变量增加预测难度。数据越外围，量越大，这导致很多数据会堆积在最外层。而在 prediction 过程中，边缘点的 training 难度会高很多。令 $d(p,N)$ 为变量到中心的最短距离的中值 (median)，简易计算方法，所有点都在 $d(p,N)$ 外面的概率为 $\tfrac{1}{2}$，即 $\left(1 - \frac{d^p}{1^p}\right)^N =\tfrac{1}{2}$。从而可以得到

\begin{align} d(p,N) = \left( 1 - \left(\frac{1}{2}\right)^{1/N}\right)^{1/p}. \end{align}

变量 density 降低。变量的 sampling density 是和 $N^{1/p}$ 成正比的。通常 density 越高，learning 越准。维度 $p$ 的增加，会导致 training data 的需求数量以 $p$ 的级数增加。