ハンバーガー統計学 + Python (第８章)¶

Jupyter Notebook (IPython Notebook) とは¶

Python という名のプログラミング言語が使えるプログラミング環境。計算コードと計算結果を同じ場所に時系列で保存できるので、実験系における実験ノートのように、いつどんな処理を行って何を得たのか記録して再現するのに便利。
当学演習室での Jupyter Notebook の起動方法

8.　分布と仮説検定¶

ここから先は、今までの総復習になります。

8.1 データの種類に関する理解 ¶

上記リンクのページを読んで、以下の用語の意味を理解してください。

離散変数 (discrete variable) と連続変数 (continuous variable)
名義尺度、順序尺度、間隔尺度、比例尺度

8.2 標本抽出法 ¶

上記リンクのページを読んで、以下の用語の意味を理解してください。

標本調査
無作為抽出法、有意抽出法
母平均、母比率、極限定理

8.3 標本抽出と推定・検定 ¶

上記リンクのページを読んで、以下の用語の意味を理解してください。

母集団 (population)
推定 (estimation)、区間推定 (interval estimation)、不偏推定量 (unbiased estimator)
検定

8.4 データ分析と統計処理の基本的な手順の整理 ¶

上記リンクのページを読んで、以下の用語の意味と統計処理の流れを理解してください。

記述統計と推測統計
散布図、回帰分析
標準誤差と t 値
重回帰分析

8.5 統計量と区間推定 ¶

上記リンクのページを読んで、以下の用語の意味を理解してください。

平均値、中央値、分散、標準偏差
復元抽出と非復元抽出
標本の期待値と分散
信頼区間

8.6 仮説検定と確率分布 ¶

上記リンクのページを読んで、以下の用語の意味を理解してください。

仮説検定
連続型の確率分布 ... 正規分布、指数分布など
離散型の確率分布 ... ポアソン分布など
カイ二乗検定、t 検定

正規分布に関して、右記のリンク先も読んでください。→ 正規分布

その他の分布に関して、右記のリンク先も読んでください。→連続型確率分布

__ランダムな数字__：以下のコードを実行してください。

In [1]:

# 図やグラフを図示するためのライブラリをインポートする。
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:

# 乱数を扱うためのライブラリをインポートする。
import random
import numpy as np

In [3]:

# 一様乱数を１０個発生させて data というリストに格納する。
data = []
for n in range(10):
    data.append(random.random())

In [4]:

# data の中身を確認する。
data

Out[4]:

[0.6883771030302529,
 0.1135319243359828,
 0.7476411620572164,
 0.1689763373266342,
 0.05641014134913169,
 0.6621040379081664,
 0.960254021927889,
 0.5935874814597817,
 0.08967766002174016,
 0.41134892395100797]

In [5]:

# ヒストグラムを描く。
plt.hist(data, bins=20)
plt.show()

__課題8.6__：以下の問いに答えてください。

一様乱数を 10回、100回、1000回、10000回発生させて、それぞれヒストグラムを描いてください。

In [6]:

data = []
for n in range(10):
    data.append(random.random())
plt.hist(data, bins=20)
plt.show()

In [7]:

data = []
for n in range(100):
    data.append(random.random())
plt.hist(data, bins=20)
plt.show()

In [8]:

data = []
for n in range(1000):
    data.append(random.random())
plt.hist(data, bins=20)
plt.show()

In [9]:

data = []
for n in range(10000):
    data.append(random.random())
plt.hist(data, bins=20)
plt.show()

random.normalvariate(mu, sigma) は正規分布に従う乱数を発生させる関数です（mu は平均で、sigma は標準偏差）。平均０、標準偏差1の正規分布に従う乱数を 10回、100回、1000回、10000回発生させて、それぞれヒストグラムを描いてください。

In [10]:

data = []
for n in range(10):
    data.append(random.normalvariate(0, 1))
plt.hist(data, bins=20)
plt.show()

In [11]:

data = []
for n in range(100):
    data.append(random.normalvariate(0, 1))
plt.hist(data, bins=20)
plt.show()

In [12]:

data = []
for n in range(1000):
    data.append(random.normalvariate(0, 1))
plt.hist(data, bins=20)
plt.show()

In [13]:

data = []
for n in range(10000):
    data.append(random.normalvariate(0, 1))
plt.hist(data, bins=20)
plt.show()

__random.expovariate(lambd)__は指数分布に従う乱数を発生させる関数です（lambd は平均にしたい値の逆数）。平均1の指数分布に従う乱数を 10回、100回、1000回、10000回発生させて、それぞれヒストグラムを描いてください。

In [15]:

data = []
for n in range(10):
    data.append(random.expovariate(1))
plt.hist(data, bins=20)
plt.show()

In [16]:

data = []
for n in range(100):
    data.append(random.expovariate(1))
plt.hist(data, bins=20)
plt.show()

In [17]:

data = []
for n in range(1000):
    data.append(random.expovariate(1))
plt.hist(data, bins=20)
plt.show()

In [18]:

data = []
for n in range(10000):
    data.append(random.expovariate(1))
plt.hist(data, bins=20)
plt.show()

np.random.binomial(n=10, p=0.5) は、二項分布に従う乱数を発生させる numpy の関数です（確率pで表が出るコインをn回投げたときに、表が出る個数を返します）。p=0.5の二項分布に従う乱数を 10回、100回、1000回、10000回発生させて、それぞれヒストグラムを描いてください。

In [19]:

data = []
for n in range(10):
    data.append(np.random.binomial(n=10, p=0.5))
plt.hist(data, bins=20)
plt.show()

In [20]:

data = []
for n in range(100):
    data.append(np.random.binomial(n=10, p=0.5))
plt.hist(data, bins=20)
plt.show()

In [21]:

data = []
for n in range(1000):
    data.append(np.random.binomial(n=10, p=0.5))
plt.hist(data, bins=20)
plt.show()

In [22]:

data = []
for n in range(10000):
    data.append(np.random.binomial(n=10, p=0.5))
plt.hist(data, bins=20)
plt.show()

同様に、p=0.2, p=0.8 の二項分布に従う乱数を10000回発生させて、それぞれヒストグラムを描いてください。

In [23]:

data = []
for n in range(1000):
    data.append(np.random.binomial(n=10, p=0.2))
plt.hist(data, bins=20)
plt.show()

In [24]:

data = []
for n in range(1000):
    data.append(np.random.binomial(n=10, p=0.8))
plt.hist(data, bins=20)
plt.show()

8.7 分布の適合度を検定する ¶

上記リンクのページを読んで、以下のトピックの意味を理解してください。

検定によってわかること
分布の適合度の検定
ポアソン分布と極限定理

8.8 t検定 ¶

上記リンクのページを読んでt検定の概要を理解してください。

下記は、t検定を行うPythonプログラムの例です。

In [25]:

import numpy as np
import scipy as sp
from scipy import stats

X = [68, 75, 80, 71, 73, 79, 69, 65]
Y = [86, 83, 76, 81, 75, 82, 87, 75]

print(X)
print(Y)

t, p = stats.ttest_rel(X, Y)

print( "t 値は %(t)s" %locals() )
print( "確率は %(p)s" %locals() )

if p < 0.05:
    print("有意な差があります")
else:
    print("有意な差がありません")

[68, 75, 80, 71, 73, 79, 69, 65]
[86, 83, 76, 81, 75, 82, 87, 75]
t 値は -2.99232037543
確率は 0.0201600161737
有意な差があります

8.9 カイ二乗検定 (Chi-squared test)¶

カイ二乗検定は、観測データの分布が理論値の分布に従うかどうかを検定する手法である。例えば、サイコロを60回ふったとき、各目が出る回数は次のようになったとき、理論値の分布に従うかどうかを検定する。

In [47]:

from scipy import stats

o = [17, 10, 6, 7, 15, 5] # 実測値
e = [10, 10, 10, 10, 10, 10] # 理論値

chi2, p = stats.chisquare(o, f_exp = e)

print( "chi2 値は %(t)s" %locals() )
print( "確率は %(p)s" %locals() )

if p < 0.05:
    print("有意な差があります")
else:
    print("有意な差がありません")

chi2 値は 3.02600126762
確率は 0.0296994592035
有意な差があります

__今日の課題提出__：計算結果を.ipynb ファイル（または.jsonファイル）として保存し、指定したアドレスまでメールしてください。メールタイトルは「__ハンバーガー統計学8__」とし、メール本文に学籍番号と氏名を明記のこと。また、感想も書いてくれると喜びます。今後の講義の改善につながるかも知れません。

お疲れ様でした。¶

これで統計学の勉強は一通り終了です。忘れてしまっても、また必要になったときに思い出して復習してください。ここから先、統計についての理解を深めるには、言葉の定義や数式の意味をインターネット等を通じて調べてよく考えてみるのも良いですし、以下のような総説を読んでみるのも良いと思います。

ハンバーガー統計学 + Python (第８章)¶

Jupyter Notebook (IPython Notebook) とは¶

8. 分布と仮説検定¶

8.1 データの種類に関する理解¶

8.2 標本抽出法¶

8.3 標本抽出と推定・検定¶

8.4 データ分析と統計処理の基本的な手順の整理¶

8.5 統計量と区間推定¶

8.6 仮説検定と確率分布¶

8.7 分布の適合度を検定する¶

8.8 t検定¶

8.9 カイ二乗検定 (Chi-squared test)¶

お疲れ様でした。¶

8.　分布と仮説検定¶

8.1 データの種類に関する理解 ¶

8.2 標本抽出法 ¶

8.3 標本抽出と推定・検定 ¶

8.4 データ分析と統計処理の基本的な手順の整理 ¶

8.5 統計量と区間推定 ¶

8.6 仮説検定と確率分布 ¶

8.7 分布の適合度を検定する ¶

8.8 t検定 ¶