#!/usr/bin/env python # coding: utf-8 # # Kernel Smoothing Methods # # Chapter 6 Kernel Smoothing Methods # # *好吧,看到我照抄标题,就知道我没看懂这章节。假设,如果听课的话,老师讲得也差不多是书上的内容,但是,和自己看书完全是两回事。前者是别人读完书(还不止这一本)给你讲重点;后者是自己漫无目的地搜寻重点。本章节中,有好多与后面具体实现方法的联系,感觉作者是为后续方法做铺垫。那么问题就来了,在完全不知道后续方法的情况下,看这个章节就莫名其妙了,也不太懂里面的细节、技巧。看着公式和之前章节都差不多。好吧,等我自学完后面章节后,会再回来读这一章节的。* # # 这一章中讲的 Kernel 方法,与后面高维空间的 Kernel 不是一回事。至于区别,后面的我还没学,不知道。 # # *本章节,和[上一章节](./Splines.ipynb) 都是讲 smoothing,根据给定的数据,设计一个平滑的拟合。由于数据太复杂,不能直接套用 linear regression。所以需要分情况处理,比如分成多个 splines,或者应用 kernel。本章节和前一章节,分别对应第二章节提到的两个经典算法,即 KNN 和 linear regression。kernel smoothing 只是相对于 KNN 采用了更加复杂的函数对相邻一部分的变量进行处理; splines 是对一段一段的变量分别应用 linear regression。* # ## 内容概览 # # 1. *Nadaraya-Watson kernel-weighted average* # \begin{align} # \hat{f}(x_0) = \frac{\sum_{i=0}^{N}K_{\lambda}(x_0,x_i)y_i}{\sum_{i=1}^{N}K_{\lambda}(x_0,x_i)} # \end{align} # with the Epanechnikov quadratic kernel # \begin{align} # K_{\lambda}(x_0,x_i) = D\left(\frac{|x - x_0|}{\lambda}\right) # \end{align} # with # \begin{align} # D(t) = \begin{cases}\tfrac{3}{4}(1-t^2) & if\ |t|\leq 1 \\ 0 & \textrm{otherwise}\end{cases} # \end{align} # # 1. *Structured Kernels*,其实就是给各个维度加上一个权重,引入正定矩阵 positive semidefinite matrix $\mathbf{A}$,得到 # \begin{align} # K_{\lambda,A}(x_0,x_i) = D\left(\frac{(x - x_0)^T\mathbf{A}(x - x_0)}{\lambda}\right) # \end{align} # # 1. *Parzen kernel density estimate*,核密度估计, # \begin{align} # \hat{f}_{X}(x_0) = \frac{1}{N\lambda}\sum_{i=1}^{N}K_{\lambda}(x_0,x_i) # \end{align} # # 1. *Kernel Density Classification* # \begin{align} # \hat{\Pr}(G=j|X=x_0) = \frac{\hat{\pi}_j\hat{f}_j(x_0)}{\sum_{k=1}^J\hat{\pi}_k\hat{f}_k(x_0)} # \end{align} # 有意思是,如果核分类是最终目标的话,没有必要先进行和密度估计,那样做甚至会有副作用。why? 没想过。 # # 1. *Radial Basis Functions* 第5章有介绍过,将函数表达成 $M$ 个基函数,$f(x) = \sum_{j=1}^M \beta_jh_j(x)$。在 kernel 中,我们引入 *Renormalized* radial basis functions, # \begin{align} # h_j(x) = \frac{D(\|x-\xi_j\|/\lambda)}{\sum_{k=1}^MD(\|x-\xi_k\|/\lambda)}. # \end{align} # # 1. *Gaussian Mixture Models* # \begin{align} # f(x) = \sum_{m=1}^{M}\alpha_m\phi(x;\mu_m,\mathbf{\Sigma}_m) # \end{align} # with $\sum_{m=1}^M \alpha_m = 1$. # ## 具体内容 # # 没有。