Chpater 3. Linear Methods for Regression
线性表达式: $$ \begin{align} f(X)=\beta_0 + \sum_{j=1}^{p}X_j\beta_j \end{align} $$ 其中,输入$X_j$有$N$个观察值,共有$p$维;$\beta_0$是引入的intercept,又称为bias. 写成矩阵形式 $$ \begin{align} f(X)=\mathbf{X}\beta, \end{align} $$ 其中$\mathbf{X}$是$N\times(p+1)$矩阵。
由于$L_1$ Lasso penalty $\sum_{i=1}^{p}\left|\beta_j\right|$是非线性,没有closed-form expressions,可以通过quadratic programming problem动态求解。对于给定的$\lambda$,如果$\textrm{RSS}(\beta)$关于变量$\beta$可导的话,可以得到stationary conditions $$ \begin{align} \mathbf{x}_j^T(\mathbf{y}-\mathbf{X}\beta)=\lambda\cdot sign(\beta_j). \end{align} $$
The Elastic-net penality 是Ridge和Lasso的组合,类似与$p\in[1,2]$: $$ \begin{align} \lambda\sum_{j=1}^{p}\left(\alpha \beta_j^2 + (1-\alpha)\left|\beta_j\right|\right) \end{align} $$
Least Angle Regression (LAR)。 与Forward stepwise regression类似,每次把一个与当前residual $\mathbf{r}=\mathbf{y}-\bar{\mathbf{y}}$最相关variable $\mathbf{x}_j$加入到_active set_中。但是,LAR并不是一次性把整个variable都增加进来,而是通过一个系数加入一小部分,然后在每一步调整系数。由于系数缓慢调整,避免了variable被整个加入又被删除的累赘操作。LAR在性能上与Lasso相同,并且为Lasso提供了快速算法实现。
Principal Components Regression (PCR)。系统的输入$X_j$共有$p$维,当$p$较大时,计算复杂度高、准确率低,重中筛选出有效相关的$M$维线性组合$Z_m$,然后基于$Z_m$做regression.
PCR与Ridge Regression都是基于输入变量矩阵的principal components做regression,前者忽略了$p-M$个最小eigenvalue components,后者shrinks更多的principal components系数。
PCR仅与输入有关,容易出错;PLS同时考虑输入和输出,效果较稳定。
RSS可以写成矩阵形式 $$ \begin{align} \textrm{RSS}(\beta)=(\mathbf{y}-\mathbf{X}\beta)^T(\mathbf{y}-\mathbf{X}\beta), \end{align} $$ 其中$\mathbf{y}$是一个$N$-vector。求导: $$ \begin{align} \frac{\partial RSS}{\partial \beta}=&\frac{\partial}{\partial \beta}\left( \mathbf{y}^T\mathbf{y}-2\beta^T\mathbf{X}^T\mathbf{y}+\beta^T\mathbf{X}^T\mathbf{X}\mathbf{y} \right)=-2\mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta). \\ \frac{\partial^2 RSS}{\partial \beta \partial \beta^T}=&2\mathbf{X}^T\mathbf{X} \end{align} $$ 令一阶导数等于0,可以求得最优解 $$ \begin{align} \hat{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}. \end{align} $$
$\mathbf{X}=\mathbf{Q}\mathbf{R}$。其中$\mathbf{Q}$是$N\times(p+1)$正定矩阵,满足$\mathbf{Q}^T\mathbf{Q}=\mathbf{I}$;$\mathbf{R}$是$(p+1)\times (p+1)$上三角矩阵。 2. 计算$\hat{\beta}$: $$ \begin{align} \hat{\beta} = (\mathbf{R}^T\mathbf{Q}^T\mathbf{Q}\mathbf{R})^{-1}\mathbf{R}^T\mathbf{Q}^T\mathbf{y}= (\mathbf{R}^T\mathbf{R})^{-1}\mathbf{R}^T\mathbf{R}\mathbf{R}^{-1}\mathbf{Q}^T\mathbf{y}=\mathbf{R}^{-1}\mathbf{Q}^T\mathbf{y}. \end{align} $$ 3. 估计$\hat{y}$: $$ \begin{align} \hat{y} = \mathbf{Q}\mathbf{Q}^T\mathbf{y}. \end{align} $$