#!/usr/bin/env python
# coding: utf-8

# # Kernel Smoothing Methods
# 
# Chapter 6 Kernel Smoothing Methods
# 
# *好吧，看到我照抄标题，就知道我没看懂这章节。假设，如果听课的话，老师讲得也差不多是书上的内容，但是，和自己看书完全是两回事。前者是别人读完书（还不止这一本）给你讲重点；后者是自己漫无目的地搜寻重点。本章节中，有好多与后面具体实现方法的联系，感觉作者是为后续方法做铺垫。那么问题就来了，在完全不知道后续方法的情况下，看这个章节就莫名其妙了，也不太懂里面的细节、技巧。看着公式和之前章节都差不多。好吧，等我自学完后面章节后，会再回来读这一章节的。*
# 
# 这一章中讲的 Kernel 方法，与后面高维空间的 Kernel 不是一回事。至于区别，后面的我还没学，不知道。
# 
# *本章节，和[上一章节](./Splines.ipynb) 都是讲 smoothing，根据给定的数据，设计一个平滑的拟合。由于数据太复杂，不能直接套用 linear regression。所以需要分情况处理，比如分成多个 splines，或者应用 kernel。本章节和前一章节，分别对应第二章节提到的两个经典算法，即 KNN 和 linear regression。kernel smoothing 只是相对于 KNN 采用了更加复杂的函数对相邻一部分的变量进行处理； splines 是对一段一段的变量分别应用 linear regression。*

# ## 内容概览
# 
# 1. *Nadaraya-Watson kernel-weighted average* 
# \begin{align}
# \hat{f}(x_0) = \frac{\sum_{i=0}^{N}K_{\lambda}(x_0,x_i)y_i}{\sum_{i=1}^{N}K_{\lambda}(x_0,x_i)}
# \end{align}
# with the Epanechnikov quadratic kernel
# \begin{align}
# K_{\lambda}(x_0,x_i) = D\left(\frac{|x - x_0|}{\lambda}\right)
# \end{align}
# with
# \begin{align}
# D(t) = \begin{cases}\tfrac{3}{4}(1-t^2) & if\ |t|\leq 1 \\ 0 & \textrm{otherwise}\end{cases}
# \end{align}
# 
# 1. *Structured Kernels*，其实就是给各个维度加上一个权重，引入正定矩阵 positive semidefinite matrix $\mathbf{A}$，得到
# \begin{align}
# K_{\lambda,A}(x_0,x_i) = D\left(\frac{(x - x_0)^T\mathbf{A}(x - x_0)}{\lambda}\right)
# \end{align}
# 
# 1. *Parzen kernel density estimate*，核密度估计，
# \begin{align}
# \hat{f}_{X}(x_0) = \frac{1}{N\lambda}\sum_{i=1}^{N}K_{\lambda}(x_0,x_i)
# \end{align}
# 
# 1. *Kernel Density Classification* 
# \begin{align}
# \hat{\Pr}(G=j|X=x_0) = \frac{\hat{\pi}_j\hat{f}_j(x_0)}{\sum_{k=1}^J\hat{\pi}_k\hat{f}_k(x_0)}
# \end{align}
# 有意思是，如果核分类是最终目标的话，没有必要先进行和密度估计，那样做甚至会有副作用。why？ 没想过。
# 
# 1. *Radial Basis Functions* 第5章有介绍过，将函数表达成 $M$ 个基函数，$f(x) = \sum_{j=1}^M \beta_jh_j(x)$。在 kernel 中，我们引入 *Renormalized* radial basis functions,
# \begin{align}
# h_j(x) = \frac{D(\|x-\xi_j\|/\lambda)}{\sum_{k=1}^MD(\|x-\xi_k\|/\lambda)}.
# \end{align}
# 
# 1. *Gaussian Mixture Models* 
# \begin{align}
# f(x) = \sum_{m=1}^{M}\alpha_m\phi(x;\mu_m,\mathbf{\Sigma}_m)
# \end{align}
# with $\sum_{m=1}^M \alpha_m = 1$. 

# ## 具体内容
# 
# 没有。