Notebook

第4章線形識別モデル¶

演習問題3.1¶

$\tanh(a) = 2\sigma (2a) - 1$を示せ

$$\sigma(a) = \frac{1}{1+e^{-a}} $$

したがって

$${\rm tanh}(x)=\frac{{\rm sinh}(x)}{{\rm cosh}(x)}=\frac{\frac{e^x-e^{-x}}{2}}{\frac{e^x+e^{-x}}{2}} $$$$\iff \frac{1-e^{-2x}}{1+e^{-2x}} = \frac{1}{1+e^{-2x}}-\frac{e^{-2x}}{1+e^{-2x}} + \left(\frac{1}{1+e^{-2x}} - \frac{1}{1+e^{-2x}}\right)$$$$\iff \frac{2}{1+e^{-2x}}-\frac{1+e^{-2x}}{1+e^{-2x}} = 2\sigma(2x) - 1$$

ロジスティクシグモイド関数の線形結合がtanh関数の線形結合と等価であることを示し、係数の関係を示せ

$$y(x, {\bf w})=w_0+\sum_{j=1}^{M}w_j\sigma\left(\frac{x-\mu_j}{s}\right) $$$$y(x, {\bf u})=u_0+\sum_{j=1}^{M}u_j{\rm tanh}\left(\frac{x-\mu_j}{2s}\right) $$

* $\sigma(a)=\frac{1+\tanh(a/2)}{2} $であるので、

$$y(x,{\bf w})=w_0+\sum_{j=1}^{M}w_j\left(\frac{1+\tanh((x-\mu_j)/(2s))}{2}\right)$$

$$=w_0+\sum_{j=1}^M\frac{w_j}{2}+\sum_{j=1}^{M}\frac{w_j}{2}\tanh((x-\mu_j)/2s)$$

In [2]:

# 準備
# slideにした時にlatexが変換されない場合の対処 https://gist.github.com/damianavila/ba6a308bd0e605db0e6e
%matplotlib inline
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from IPython.display import display, Image

# osがDarwinのときはローカルと判定
os = !uname -s
use_local = os == "Darwin"

# ローカルじゃない場合は作者のページから取ってくる
base_url = "./figure" if use_local else "http://research.microsoft.com/en-us/um/people/cmbishop/PRML/prmlfigs-png"

# 図表示用
disp_figure = lambda nfig: display(Image("{0}/Figure{1}.png".format(base_url, nfig), width="500px", embed=True))

内容¶

3章の回帰モデルと類似のモデル(線形識別モデル)で分類を行う
分類
- 入力ベクトル${\bf x}$をK個の離散クラス${\cal C}_k$に割り当てること(k=1,...,K)
- 各クラスは互いに重ならず各入力は一つのクラスに割り当てられる
  - 入力空間は決定領域(decision region)に分離
  - 決定領域の境界を決定境界(decision boundary)または決定面(decision surface)と呼ぶ

線形識別モデル¶

D次元入力空間に対して入力ベクトル${\bf x}$を未知数とする方程式で表される決定面がD-1次元の超平面で定義されるもの
線形決定面によって正しく各クラスに分離できるデータ集合を線形分離可能(linearly separable)という

分類問題の表現法¶

目的変数${\bf t}$
- 回帰問題では実数値ベクトル
- 2クラス分類 -> 2値表現 $t \in \{0,1\}$
  - t=0: ${\cal C}_1$, t=1:${\cal C}_2$であり、tの値は${\cal C}_1$を取る確率として解釈可能
- 多クラス分類 -> 1-of-K符号化法
  - 5クラス分類の場合の例 ${\bf t}=(0,1,0,0,0)^T.$
- 非確率モデルを採用する場合は別の表現が良い場合もある

分類問題に対する3つのアプローチ¶

識別関数(discriminant function)の構築
- 入力ベクトル${\bf x}$から直接クラスを推定
条件付き確率分布$p({\cal C}_k|{\bf x})$のモデル化
1. パラメトリックモデルで直接モデル化し、学習データ集合でパラメータを最適化
2. 生成的アプローチ
  - $p({\cal C}_k|{\bf x})=\frac{p({\bf x}|{\cal C}_k)p({\cal C}_k)}{p({\bf x})}$

本章ではこれら3つのアプローチすべての例について述べていく

一般化線形モデル(generalized linear model)¶

分類問題で扱うモデルでは離散値を取るクラスラベルやもっと一般的に領域(0,1)の値をとる事後確率を予測したい
- パラメータ${\bf w}$の線形関数を非線形関数により変換

$$y({\bf x})=f({\bf w}^T{\bf x}+w_0).$$

* f: 活性化関数(activation function)
    * 逆関数は統計学の分野では連結関数(リンク関数; link function)

一般化線形モデルの特徴¶

決定面は$y({\bf x})={\bf w}^T {\bf x} + w_0=定数$に相当
- 決定面は${\bf x}$の線形関数
パラメータに対してはもはや線形ではない
線形モデルよりは複雑だが一般的な非線形モデルに比べたら相対的に簡単
回帰モデルと同様に基底関数$\phi({\bf x})$も利用可能
- まず入力空間${\bf x}$で分類することを考えるが4.3節では基底関数を用いる

4.1 識別関数(判別関数)¶

識別
- 入力ベクトル${\bf x}$をKクラスの1つ${\cal C}_k$に割り当てる関数
決定面が超平面となる線形識別(線形判別; linear discriminant)のみに注目
2クラスを最初に考え、その後でK>2クラスへ拡張

4.1.1 2クラス¶

最も簡単な線形識別関数

$$y({\bf x})={\bf w}^T{\bf x}+w_0.$$

* ${\bf w}$: 重みベクトル(weight vector)
* $w_0$: バイアスパラメータ(bias parameter)
    * 統計学におけるバイアスと異なる

$y({\bf x}) \ge 0$ならば入力ベクトル${\bf x}$は${\cal C}_1$に割り当てられ、それ以外は${\cal C}_2$に割り当てられる

決定境界¶

$y({\bf x})=0$で定義
- D次元入力空間中のD-1次元超平面に対応
決定境界上のベクトル${\bf x}_A, {\bf x}_B$に対し、$y({\bf x}_A)=y({\bf x}_B)=0$
- ${\bf w}^T({\bf x}_A-{\bf x}_B)=0$であるので${\bf w}$は決定面上にあるすべてのベクトルに直交
- ${\bf w}$は決定面の方向を決定

原点から決定面までの距離¶

${\bf x}$が決定面上にある場合、$y({\bf x})=0$
- $\therefore {\bf w}^T{\bf x}+w_0=0 \iff {\bf w}^T{\bf x}=-w_0$
原点から決定面までの距離は原点から決定面への垂線の大きさ
- ${\bf w}$と${\bf x}$のなす角を$\theta$とすると、上記結果を用いて
$$||{\bf x}||cos\theta=||{\bf x}||\frac{{\bf w}^T{\bf x}}{||{\bf w}||||{\bf x}||}=\frac{{\bf w}^T{\bf x}}{||{\bf w}||}=-\frac{w_0}{||{\bf w}||}$$
- よってバイアスパラメータ$w_0$は決定面の位置を決定する

In [3]:

# D=2の場合
disp_figure("4.1")

決定面から任意の点${\bf x}$への直交距離¶

$y({\bf x})$の値が直交距離を与える
任意の点${\bf x}$に対し${\bf x}_{\bot}$を決定面上への直交射影とすると、

$${\bf x}={\bf x}_\bot + r\frac{{\bf w}}{||{\bf w}||}$$

両辺に${\bf w}^T$を左から掛け、$w_0$を足すと、

$${\bf w}^T{\bf x}+w_0={\bf w}^T{\bf x}_\bot + w_0 + r\frac{{\bf w}^T{\bf w}}{||{\bf w}||}$$$$\iff y({\bf x})=0+r||{\bf w}||$$

従って

$$r=\frac{y({\bf x})}{||{\bf w||}}$$

In [4]:

# D=2の場合
disp_figure("4.1")

ダミー入力の導入¶

$x_0=1$を導入し$\tilde{{\bf x}}=(x_0, {\bf x})$と定義すると

$$y({\bf x})=\tilde{{\bf w}}^T\tilde{{\bf x}}$$

この場合決定面はD+1次元の入力空間の原点を通るD次元の超平面
- 超平面が原点を通る$\iff y({\bf x})=0$

4.1.2 多クラス¶

K=2クラスの線形識別をK>2クラスへ拡張
2クラス識別器の組み合わせでKクラス識別を構成
- いくつかの重大な問題点有

1対他分類器(one-versus-the-rest classifier)¶

特定のクラス${\cal C}_k$に入る点とそのクラスに入らない点とに分類する2クラス問題を解く分類器をK-1個利用
3クラス分類において曖昧な分類領域が発生

In [5]:

disp_figure("4.2a")

1対1分類器(one-versus-one classifier)¶

すべての可能なクラスの組の2クラス識別関数を考え、K(K-1)/2個の2クラス識別関数を導入
この場合も曖昧な領域が存在

In [6]:

disp_figure("4.2b")

単独のKクラス識別による解決¶

K個の線形関数で構成される単独のKクラス識別

$$y_k({\bf x})={\bf w}_k^T{\bf x}+w_{k0}.$$

すべての$j\neq k$に対して$y_k({\bf x})>y_j({\bf x})$である場合点${\bf x}$はクラス${\cal C}_k$に割り当てられる
- クラス${\cal C}_k$とクラス${\cal C}_j$間の決定境界は$y_k({\bf x})=y_j({\bf x})$
- 決定境界は以下の式で定義される(D-1)次元の超平面

$$({\bf w}_k-{\bf w}_j)^T{\bf x}+(w_{k0}-w_{j0})=0.$$

    * 4.1.1節の2クラスの場合の決定境界と同様の形をしているため類似の幾何学的特性が適用可能

識別領域¶

識別器の決定領域は常に1つに連結していて凸領域
決定領域${\cal R}_k$にある2点${\bf x}_A$と${\bf x}_B$を結ぶ直線上にある任意の点$\hat{{\bf x}}$($0\leq\lambda\leq 1$)

$$\hat{{\bf x}}=\lambda{\bf x}_A + (1-\lambda){\bf x}_B$$

識別関数の線形性から以下が成立

$$y_k(\hat{{\bf x}})=\lambda y_k({\bf x}_A) + (1-\lambda)y_k({\bf x}_B)$$

* すべての$j\neq k$に対して$y_k({\bf x}_A)>y_j({\bf x}_A)$, $y_k({\bf x}_B)>y_j({\bf x}_B)$が成り立つので$y_k(\hat{{\bf x}})>y_j(\hat{{\bf x}})$
* 従って任意の点$\hat{{\bf x}}$も決定領域${\cal R}_k$に属し、決定領域${\cal R}_k$は単一結合しており凸領域

2クラスの識別の場合は$y_1({\bf x})$と$y_2({\bf x})$に基づく定式化でも1つの識別関数$y({\bf x})$に基づく定式化のどちらでも良い

In [7]:

disp_figure("4.3")

線形識別関数のパラメータを学習する3つのアプローチ¶

最小二乗
フィッシャーの線形判別
パーセプトロンアルゴリズム

4.1.3 分類における最小二乗¶

3章での回帰問題と同じく最小二乗に基づく定式化をKクラスの分類問題にも適用
目的変数ベクトル${\bf t}$には1-of-K符号化法を用いる

最小二乗を利用する理由¶

入力ベクトルが与えられた際の目的変数値の条件付き期待値$\mathbb{E}({\bf t}|{\bf x})$を近似するため
2値表記法では条件付期待値はクラス事後確率のベクトルによって与えられる
- しかし推定された確率は近似が悪く確率の値が(0,1)の範囲を越えることもある
  - 線形モデルの柔軟性が低いことが理由

線形モデルによる表現¶

各クラス${\cal C}_k$は各クラス毎の線形モデルで記述(k=1,...,K)

$$y_k({\bf x})={\bf w}_k^T{\bf x}+w_{k0}.$$

D+1次元ベクトル$\tilde{{\bf w}}_k=(w_{k0},{\bf w}_k^T)^T$をk列目に持つ行列$\tilde{{\bf W}}$, ダミー入力$x_0=1$を加えた入力ベクトル$(1,{\bf x}^T)$を用いると纏めて表記可能

$${\bf y}({\bf x})=\tilde{{\bf W}}^T\tilde{{\bf x}}$$

新たな入力${\bf x}$は$y_k=\tilde{{\bf w}}_k^T\tilde{{\bf x}}$が最大となるクラスに割り当てられる

二乗和誤差関数の最小化によるパラメータ行列$\tilde{{\bf W}}$の決定¶

学習データ集合$\{{\bf x}_n, {\bf t}_n\}$ (n=1,...,N)
n番目の行がベクトル${\bf t}_n^T$である行列${\bf T}$とn番目の行が$\tilde{{\bf x}}_n^T$である行列$\tilde{{\bf X}}$を定義
二乗和誤差関数は以下で与えられる

$$ E_D(\tilde{{\bf W}})=\frac{1}{2}{\rm Tr}\left\{ (\tilde{{\bf X}}\tilde{{\bf W}}-{\bf T})^T(\tilde{{\bf X}}\tilde{{\bf W}}-{\bf T}) \right\} $$

$\tilde{{\bf W}}$による微分と識別関数¶

(C.27)でB=Iとみなして計算

$$ \frac{\partial E_D(\tilde{{\bf W}})}{\partial{\bf \tilde{{\bf W}}}}=\frac{1}{2}\left\{ 2(\tilde{{\bf X}}\tilde{{\bf W}}-{\bf T})^T\tilde{{\bf X}} \right\} = 0$$$$ \iff (\tilde{{\bf X}}\tilde{{\bf W}}-{\bf T})^T\tilde{{\bf X}} = 0$$$$ \iff (\tilde{{\bf X}}\tilde{{\bf W}})^T\tilde{{\bf X}}-{\bf T}^T\tilde{{\bf X}} = 0$$$$ \iff (\tilde{{\bf X}}\tilde{{\bf W}})^T\tilde{{\bf X}} = {\bf T}^T\tilde{{\bf X}}$$$$ \iff \tilde{{\bf X}}^T(\tilde{{\bf X}}\tilde{{\bf W}}) = \tilde{{\bf X}}^T{\bf T}$$$$ \iff \tilde{{\bf W}}=(\tilde{{\bf X}}^T\tilde{{\bf X}})^{-1}\tilde{{\bf X}}^T{\bf T}=\tilde{{\bf X}}^{\dagger}{\bf T}$$

$\tilde{{\bf X}}^{\dagger}$は3.1.1節で出てきた擬似逆行列(pseudo-inverse matrixt)
結局、識別関数は

$${\bf y}({\bf x})=\tilde{{\bf W}}^T\tilde{{\bf x}}={\bf T}^T(\tilde{{\bf X}}^\dagger)^T\tilde{{\bf x}}.$$

最小二乗解の特性¶

学習データにおける目的変数ベクトルがある定数${\bf a}$とbに対して線形制約を持っている場合はモデルの予測も同じ線形制約を持つ

$${\bf a}^T{\bf t}_n+b=0$$$${\bf a}^T{\bf y}({\bf x})+b=0$$

1-of-K符号化法を使用する場合、モデルによる予測の特性として任意の${\bf x}$に対し${\bf y}({\bf x})$の要素の和が1
- 和出力が(0,1)の範囲に入る制約が無いため確率としては解釈出来ない

識別関数における最小二乗解の問題¶

最小二乗解はパラメータを求めるための解析解を与える
- しかし最小二乗解は外れ値に対して頑健でない
識別関数において問題となる
- 図4.4ではデータの追加により決定境界の位置が著しく変化
  - 「正し過ぎる」予測にペナルティを科す
- 2.3.7節でも最小二乗法による解が外れ値に弱い記述有
7.1.2節で外れ値に対して過敏である欠点を避けるための別の誤差関数が紹介

In [8]:

disp_figure("4.4a")

In [9]:

disp_figure("4.4b")

最小二乗法の他の問題¶

頑健性の欠如だけではない
図4.5
- 2次元入力空間$(x_1,x_2)$における3クラスの人工的に作成されたデータ集合
  - 線形決定境界によって正しくクラス分類される
- ロジスティック回帰による解(右)では正しく分類されるが最小二乗解(左)では緑のクラスは小さな領域しか正しく分類されない

In [10]:

# 最小二乗解による分類境界
disp_figure("4.5a")

In [11]:

# ロジスティック回帰によるクラス分類
disp_figure("4.5b")

最小二乗法のまとめ¶

最小二乗法は条件付確率分布にガウス分布を仮定した場合の最尤法
- 一方で2値目的変数ベクトルは明らかにガウス分布からかけ離れている
- 最小二乗法が使えないのは当たり前
適切な確率モデルを採用すれば最小二乗法よりも良い特性を持つ分類法を得られる
その前に確率的でない方法についてもう少し述べる

4.1.4 フィッシャーの線形判別¶

次元の削減という観点から線形識別モデルを見る
2クラスの場合にD次元入力ベクトルを得て1次元に射影

$$y={\bf w}^T{\bf x}. $$

$y \geq -w_0$の場合クラス${\cal C}_1$、そうでない場合${\cal C}_2$とすると線形分類器が得られる
- 1次元への射影は相当量の情報の損失を発生
- D次元空間では分離されていたクラスが1次元空間では大きく重なるかもしれないが、${\bf w}$の要素の調整でクラスの分離を最大化可能

クラス分離度の測定¶

クラス${\cal C}_1$の点が$N_1$、クラス${\cal C}_2$の点が$N_2$ある時のそれぞれの平均ベクトル

$${\bf m}_1 =\frac{1}{N_1}\sum_{n\in{\cal C}_1}{\bf x}_n, {\bf m}_2 =\frac{1}{N_{2}}\sum_{n\in{\cal C}_2}{\bf x}_n,$$

クラスの分離度を射影されたクラスの平均の差で測定

$$m_2-m_1={\bf w}^T({\bf m}_2 -{\bf m}_1)$$

* ここで$m_k={\bf w}^T{\bf m}_k$は${\cal C}_k$から射影されたデータの平均
* この式を最大化する${\bf w}$を選択すれば分離度が最大となる
* ${\bf w}_k$を大きくすれば$m_k$は幾らでも大きくなる問題
    * 単位長であるという制約を加えることで回避

単位長の制約¶

$\sum_i w_i^2 = 1$の制約の下で$m_2-m_1={\bf w}^T({\bf m}_2 -{\bf m}_1)$をラグランジュの未定乗数法を使って解く(演習4.4)
$f({\bf w})=m_2-m_1-{\bf w}^T({\bf m}_2 -{\bf m}_1)+\lambda(\sum_i w_i^2 - 1)=m_2-m_1-{\bf w}^T({\bf m}_2 -{\bf m}_1)+\lambda({\bf w}^T{\bf w} - 1)$を${\bf w}$で微分して0とおく
- $\frac{\partial f({\bf w})}{\partial {\bf w}}=({\bf m}_2 -{\bf m}_1)+\lambda{\bf w}=0$
- このアプローチにはまだ図4.6左図のような問題がある

In [12]:

# 図4.6左図
# クラス平均を結んだ直線上へ射影しても重なり合う部分が多いことを示す
# クラス分布の非対角な共分散が強いために起こる問題
disp_figure("4.6a")

フィッシャーの提案法¶

クラス平均間の分離度を大きくすると同時に各クラス内では小さな分散を与える関数を最大化
- クラス間の重なりを最小にできる
クラス${\cal C}_k$から射影されたデータのクラス内分散($y_n={\bf w}^T{\bf x}$とする)

$$s_k^2=\sum_{n \in {\cal C}_k}(y_n - m_k)^2$$

* 全データ集合に対する総クラス内分散$s_1^2+s_2^2$

フィッシャーの判別基準はクラス内分散とクラス間分散の比

$$J({\bf w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}$$

一般化のための式変形¶

$y={\bf w}^T{\bf x}$, $m_k={\bf w}^T{\bf m}_k$, $s_k^2=\sum_{n \in {\cal C}_k}(y_n - m_k)^2$, $({\bf w}^T{\bf x})^2=({\bf w}^T{\bf x})({\bf w}^T{\bf x})={\bf w}^T{\bf x}{\bf x}^T{\bf w}$であるので

$$J({\bf w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}=\frac{({\bf w}^T{\bf m}_2-{\bf w}^T{\bf m}_1)^2}{\sum_{n \in {\cal C}_1}({\bf w}^T{\bf x}_n - {\bf w}^T{\bf m}_1)^2+\sum_{n \in {\cal C}_2}({\bf w}^T{\bf x}_n - {\bf w}^T{\bf m}_2)^2}$$$$ \iff \frac{\{{\bf w}^T({\bf m}_2-{\bf m}_1)\}^2}{\sum_{n \in {\cal C}_1}\{{\bf w}^T({\bf x}_n - {\bf m}_1)\}^2+\sum_{n \in {\cal C}_2}\{{\bf w}^T({\bf x}_n - {\bf m}_2)\}^2}$$$$ \iff \frac{{\bf w}^T({\bf m}_2-{\bf m}_1)({\bf m}_2-{\bf m}_1)^T{\bf w}}{\sum_{n \in {\cal C}_1}{\bf w}^T({\bf x}_n - {\bf m}_1)({\bf x}_n - {\bf m}_1)^T{\bf w}+\sum_{n \in {\cal C}_2}{\bf w}^T({\bf x}_n - {\bf m}_2)({\bf x}_n - {\bf m}_2)^T{\bf w}}$$$$ \iff \frac{{\bf w}^T({\bf m}_2-{\bf m}_1)({\bf m}_2-{\bf m}_1)^T{\bf w}}{{\bf w}^T\left\{\sum_{n \in {\cal C}_1}({\bf x}_n - {\bf m}_1)({\bf x}_n - {\bf m}_1)^T+\sum_{n \in {\cal C}_2}({\bf x}_n - {\bf m}_2)({\bf x}_n - {\bf m}_2)^T\right\}{\bf w}}$$

一般化されたフィッシャーの判別基準¶

$$J({\bf w})=\frac{{\bf w}^T{\bf S}_B{\bf w}}{{\bf w}^T{\bf S}_W{\bf w}}$$

クラス間共分散行列(between-class covariance matrix)

$${\bf S}_B=({\bf m}_2-{\bf m}_1)({\bf m}_2-{\bf m}_1)^T$$

総クラス内共分散行列(within-class covariance matrix)

$${\bf S}_w=\sum_{n\in{\cal C}_1}({\bf x}_n-{\bf m}_1)({\bf x}_n-{\bf m}_1)^{\rm T}+\sum_{n\in{\cal C}_2}({\bf x}_n-{\bf m}_2)({\bf x}_n-{\bf m}_2)^{\rm T}$$

フィッシャーの判別基準の最大化¶

判別基準$J({\bf w})=\frac{{\bf w}^T{\bf S}_B{\bf w}}{{\bf w}^T{\bf S}_W{\bf w}}$を${\bf w}$に関して微分

$$\frac{\partial J({\bf w})}{\partial {\bf w}}=2\frac{({\bf S}_B{\bf w})({\bf w}^T{\bf S}_W{\bf w})-({\bf w}^T{\bf S}_B{\bf w})({\bf S}_W{\bf w})}{({\bf w}^T{\bf S}_W{\bf w})^2}=0$$

従って最大となる条件は

$$({\bf w}^T{\bf S}_B{\bf w}){\bf S}_w{\bf w}=({\bf w}^T{\bf S}_w{\bf w}){\bf S}_B{\bf w}.$$

* ${\bf S}_B=({\bf m}_2-{\bf m}_1)({\bf m}_2-{\bf m}_1)^T$であるので${\bf S}_B{\bf w}$は常に$({\bf m}_2-{\bf m}_1)$と同じ方向を持つベクトル
* ${\bf w}$の方向だけが重要で大きさは考慮する必要がないので、スカラファクタ$({\bf w}^T{\bf S}_B{\bf w})$と$({\bf w}^T{\bf S}_w{\bf w})$は無視して、左から${\bf S}_W^{-1}$を掛けると

$${\bf w}\propto{\bf S}_w^{-1}({\bf m}_2-{\bf m}_1)$$

* クラス内共分散${\bf S}_w$が等方的であるとすると${\bf S}_w$は単位行列に比例し${\bf w}$がクラス平均の差に比例

フィッシャーの線形判別(Fisher's linear discriminant)¶

$${\bf w}\propto{\bf S}_w^{-1}({\bf m}_2-{\bf m}_1)$$

データを1次元へ削減する際のデータの射影方向の選択
しきい値$y_0$を設定することで$y({\bf x})\geq y_0$の場合にはクラス${\cal C}_1$に分類され、そうでない場合にはクラス${\cal C}_2$に分類されるような識別関数を構成可能
さらにクラス条件付き確率密度$p(y|{\cal C}_k)$をガウス分布でモデル化し、1.2.4節の手法で最尤法によりガウス分布のパラメータを決め、1.5.1節の定式化により識別のための最適なしきい値が求まる
- ガウス分布であるという仮定は$y={\bf w}^T{\bf x}$が確率変数集合の和であることにより中心極限定理から正当化される

In [13]:

# 図4.6の左図からwベクトルの方向を分離度が最大となるような方向に修正
disp_figure("4.6b")

4.1.5 最小二乗との関連¶

最小二乗法
- 目的変数値の集合にできるだけ近い予測をすることを目的
フィッシャーの判別基準
- 出力空間でのクラス分離を最大化
2つのアプローチの関係について調べる
- 特に2クラス分類問題においてフィッシャーの判別基準が最小二乗の特殊な場合であることを示す

1-of-K符号化法でない目的変数の表現¶

クラス${\cal C}_1$に対する目的変数値を$N/N_1$と表現
- クラス${\cal C}_1$に対する事前確率の逆数を近似($N_1$はクラス${\cal C}_1$に属するパターンの個数、Nは総パターンの個数
クラス${\cal C}_2$に対する目的変数値を$-N/N_2$ととる

二乗和誤差関数と導関数¶

二乗和誤差関数

$$E=\frac{1}{2}\sum_{n=1}^N({\bf w}^T{\bf x}_n+w_0-t_n)^2$$

$w_0$と${\bf w}$に関する導関数を0とおいたもの

$$\sum_{n=1}^N({\bf w}^T{\bf x}_n + w_0-t_n)=0$$$$\sum_{n=1}^N({\bf w}^T{\bf x}_n + w_0-t_n){\bf x}_n=0$$

$w_0$に関する導関数の上述の表記法による変形¶

$$\sum_{n=1}^N({\bf w}^T{\bf x}_n + w_0-t_n)=0$$$$\iff {\bf w}^T\sum_{n=1}^N{\bf x}_n + Nw_0 - \sum_{n=1}^N t_n=0$$$$\iff w_0 = -\frac{1}{N}{\bf w}^T\sum_{n=1}^N{\bf x}_n$$$$\iff w_0=-{\bf w}^T{\bf m}.$$

ここで以下の式を利用

$$\sum_{n=1}^Nt_n=N_1\frac{N}{N_1}-N_2\frac{N}{N_2}=0.$$$${\bf m}=\frac{1}{N}\sum_{n=1}^N{\bf x}_n = \frac{1}{N}(N_1{\bf m}_1+N_2{\bf m}_2)$$

${\bf w}$による導関数の変形¶

$$\sum_{n=1}^N({\bf w}^T{\bf x}_n + w_0-t_n){\bf x}_n=0$$$$\iff \sum_{n=1}^N({\bf w}^T{\bf x}_n -{\bf w}^T{\bf m} -t_n){\bf x}_n=0$$$$\iff \sum_{n=1}^N{\bf w}^T({\bf x}_n - {\bf m}){\bf x}_n - \sum_{n=1}^N t_n {\bf x}_n=0$$$$\iff \sum_{n=1}^N{\bf w}^T({\bf x}_n - \frac{1}{N}(N_1{\bf m}_1+N_2{\bf m}_2)){\bf x}_n - \sum_{n=1}^N t_n {\bf x}_n=0$$$$\iff \sum_{n=1}^N{\bf w}^T({\bf x}_n - \frac{1}{N}(N_1{\bf m}_1+N_2{\bf m}_2)){\bf x}_n - \sum_{n\in C_1} \frac{N}{N_1} {\bf x}_n + \sum_{n\in C_2} \frac{N}{N_2} {\bf x}_n=0$$

時間の都合から断念しました(演習4.6)

二乗和誤差関数の最小化により同じ式が導出¶

簡単な代数演算をした結果

$$\left({\bf S}_w+\frac{N_1N_2}{N}{\bf S}_B\right){\bf w} = N({\bf m}_1 - {\bf m}_2)$$

${\bf S}_B{\bf w}$は常に$({\bf m}_2-{\bf m}_1)$と同じ方向となることから

$${\bf w}\propto {\bf S}_w^{-1}({\bf m}_2-{\bf m}_1)$$

* フィッシャーの線形判別と一致

バイアス$w_0=-{\bf w}^T{\bf m}$であるため$y({\bf x})={\bf w}^T({\bf w}-{\bf m})>0$の場合新たなベクトル${\bf x}$はクラス${\cal C}_1$に、そうでない場合、クラス${\cal C}_2$に分類

4.1.6 多クラスにおけるフィッシャーの判別¶

K>2クラスへのフィッシャー判別の一般化
(入力次元数D) > (クラス数K)を仮定
D'>1である線形「特徴」$y_k={\bf w}_k^T{\bf x}$を導入(k=1,...,D')
- グループ化して${\bf y}$で表現
重みベクトル$\{{\bf w}_k\}$を列とする行列${\bf W}$を用いると

$${\bf y}={\bf W}^T{\bf x}.$$

クラス内共分散の一般化¶

$${\bf S}_W=\sum_{k=1}^{K}{\bf S}_k$$

ここで以下を利用($N_k$はクラス${\cal C}_k$内のパターンの個数)

$${\bf S}_k=\sum_{n\in{\cal C}_k}({\bf x}_n-{\bf m}_k)({\bf x}_n-{\bf m}_k)^T$$$${\bf m}_k=\frac{1}{N_k}\sum_{n\in{\cal C}_k}{\bf x}_n$$

クラス間共分散行列の一般化¶

Duda and Hart(1973)にある以下の総共分散行列を考える

$${\bf S}_T=\sum_{n=1}^N({\bf x}_n-{\bf m})({\bf x}_n-{\bf m})^T.$$

ここで以下を利用($N=\sum_k N_k$)

$${\bf m}=\frac{1}{N}\sum_{n=1}^N{\bf x}_n=\frac{1}{N}\sum_{k=1}^K N_k{\bf m}_k$$

総共分散行列はクラス内共分散行列の和とクラス間共分散の測度と考えられる行列${\bf S}_B$を足したものに分解可能

$${\bf S}_T = {\bf S}_W + {\bf S}_B.$$

ここで

$${\bf S}_B = \sum_{k=1}^K N_k({\bf m}_k - {\bf m})({\bf m}_k - {\bf m})^T$$

TODO: 変形

射影後のD'次元空間における定義¶

$${\bf S}_W = \sum_{k=1}^K\sum_{n\in{\cal C}_k}({\bf y}_n - {\mu}_k)({\bf y}_n - {\mu}_k)^T$$$${\bf S}_B=\sum_{k=1}^K N_k({\bf \mu}_k-{\bf \mu})({\bf \mu}_k-{\bf \mu})^T$$

ここで

$${\bf \mu}_k=\frac{1}{N_k}\sum_{n\in{\cal C}_k}{\bf y}_n, {\bf \mu}=\frac{1}{N}\sum_{k=1}^K N_k{\bf \mu}_k$$

FIXME: 誤植ではないか

フィッシャーの判別基準の一般化¶

クラス間分散が大きく、クラス内分散が小さい場合に大きくなるスカラーを構成
一つの例

$$J({\bf W})={\rm Tr}\{{\bf S}_W^{-1}{\bf S}_B\}$$

* 射影行列${\bf W}$の明示的な関数として表現すると

$$J({\bf W})={\rm Tr}\{({\bf W}^T{\bf S}_W{\bf W})^{-1}({\bf W}^T{\bf S}_B{\bf W}) \}$$

最大化はやや混み合っている(Fukunaga(1990)を参照)
- 重みの値はD'個の最も大きな固有値に対応する${\bf S}_W^{-1}{\bf S}_B$の固有ベクトルによって決定

すべての基準に共通する重要な結果¶

${\bf S}_B=\sum_{k=1}^K N_k({\bf m}_k - {\bf m})({\bf m}_k - {\bf m})^T$はK個の行列の和で構成
- 各行列は2つのベクトルの外積でありランクは1、また${\bf m}=\frac{1}{N}\sum_{n=1}^N{\bf x}_n=\frac{1}{N}\sum_{k=1}^K N_k{\bf m}_k$の制約より(K-1)個の行列だけが独立
- 従って${\bf S}_B$のランクは高々(K-1)であり0でない固有値の数は高々(K-1)個
${\bf S}_B$の固有ベクトルで張る(K-1)次元部分空間への射影が$J({\bf W})$の値を変えない
- つまりこの方法ではK個以上の線形「特徴」を発見することはできない

アイリスデータセット¶

1930年代からある伝統的なデータセット
アイリス(アヤメ)という花に関するもの
- 3つの異なる品種のサンプルデータ(サンプル数150)から構成
- 花の形状から分類可能
中身は4つの要素からなる
- がく片の長さ(Sepal length)
- がく片の幅(Sepal width)
- 花びらの長さ(Petal length)
- 花びらの幅(Petal width)

In [14]:

from sklearn.datasets import load_iris

data = load_iris()

features = data["data"]
feature_names = data["feature_names"]
target = data["target"]
target_names = data["target_names"]
labels = target_names[target]

print "150サンプルx4次元の特徴量データ"
print features.shape
print features[0]

print ""
print "特徴量の名前のリスト"
print feature_names  # list

print ""
print "正解データ" 
print target.shape
print target[0:150]

print ""
print "正解データの名前のリスト"
print target_names[0:150]

print "target_names[target] (target_namesはndarray)"
print labels

150サンプルx4次元の特徴量データ
(150, 4)
[ 5.1  3.5  1.4  0.2]

特徴量の名前のリスト
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

正解データ
(150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

正解データの名前のリスト
['setosa' 'versicolor' 'virginica']
target_names[target] (target_namesはndarray)
['setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'versicolor' 'versicolor' 'versicolor'
 'versicolor' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica' 'virginica' 'virginica' 'virginica'
 'virginica' 'virginica' 'virginica']

In [23]:

import itertools
    
# 可視化
fig = plt.figure(1, figsize=(16,16))
for t, marker, c in zip(range(3), ">ox", "rgb"):  # 品種ごとに色とマーカを変えてプロット
    for (i,j) in itertools.combinations(range(4), 2):
        ax = fig.add_subplot(4, 4, 4*i + j + 1)
        ax.set_xlabel(feature_names[i])
        ax.set_ylabel(feature_names[j])
        ax.scatter(features[target == t, i],
                   features[target == t, j],
                   marker=marker,
                   c=c)

In [16]:

# http://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.lda import LDA

iris = datasets.load_iris()

X = iris.data
y = iris.target
target_names = iris.target_names

pca = PCA(n_components=2)
X_r = pca.fit(X).transform(X)

lda = LDA(n_components=2)
X_r2 = lda.fit(X, y).transform(X)

# Percentage of variance explained for each components
print('explained variance ratio (first two components): %s'
      % str(pca.explained_variance_ratio_))

plt.figure()
for c, i, target_name in zip("rgb", [0, 1, 2], target_names):
    plt.scatter(X_r[y == i, 0], X_r[y == i, 1], c=c, label=target_name)
plt.legend()
plt.title('PCA of IRIS dataset')

plt.figure()
for c, i, target_name in zip("rgb", [0, 1, 2], target_names):
    plt.scatter(X_r2[y == i, 0], X_r2[y == i, 1], c=c, label=target_name)
plt.legend()
plt.title('LDA of IRIS dataset')

plt.show()

explained variance ratio (first two components): [ 0.92461621  0.05301557]

第4章 線形識別モデル¶