【統計検定2級】高校範囲から先を初心者にもわかりやすく説明してみる

学生生活

理系を名乗りながら統計に詳しくないのは正直まずい、と思い統計検定2級の勉強を始めました。

高校数学でやった二項分布あたりから、だんだん式の意味が分からない状態に陥りがちです。

省略されがちな計算過程や式そのものの意味を、自分なりに解釈し直すことを主眼にまとめました。

教科書的な厳密さよりも、「なぜその形になるのか」「何を表している式なのか」に重きを置いています。

勉強に使ったサイト→ 統計学の時間|統計WEB

そもそも分布とは

「値がどのあたりに、どれくらいの頻度で出るか」を示す設計図です。

統計では大きく分けて、次の2種類の分布が登場します。

この区別を意識すると、後半の話がかなり整理されます。

① 現象そのものを表す分布(モデル)

「現象がどう起きるか」を直接モデル化したものです。

  • 二項分布
  • ポアソン分布
  • 正規分布
  • 指数分布
  • 幾何分布 など

② 推定・検定のための分布(道具)

  • t分布
  • カイ二乗分布
  • F分布 など

こちらは「統計量がどのように散らばるか」を扱うための分布です。

二項分布 B (n, p)

結果が0か1しかない「ベルヌーイ試行」を行ったときにできる確率分布です。

B (n,p)表記で難しい印象を受けますが、単純に試行回数nと確率pを書いてるだけ。

E (X)は「試行回数×確率」の本来の定理通りですが、本質的には確率と同義です。

E(X)=1p+0(1p)=pE(X)=1\cdot p+0\cdot(1-p)=p

分散 V (X)は直感的な「平均値からの散らばり具合の2乗」から式変形が必要です。

V[X]=1ni=1n(xixˉ)2V[X] = \frac{1}{n}\sum_{i=1}^n (x_i – \bar{x})^2(xixˉ)2=xi22xixˉ+xˉ2(x_i – \bar{x})^2 = x_i^2 – 2x_i\bar{x} + \bar{x}^2

1n(2xixˉ)=2xˉ1nxi=2xˉ2\frac{1}{n}\sum (-2x_i\bar{x}) = -2\bar{x} \cdot \frac{1}{n}\sum x_i = -2\bar{x}^21nxˉ2=xˉ2\frac{1}{n}\sum \bar{x}^2 = \bar{x}^2これらをまとめると、V[X]=(1nxi2)xˉ2V[X] = \left(\frac{1}{n}\sum x_i^2\right) – \bar{x}^2期待値で書けば、V[X]=E[X2](E[X])2V[X] = E[X^2] – (E[X])^2

ポアソン分布 P (λ)

「個別の試行はどうでもいいから、“一定時間で何件起きるか” だけを考えたい」時の分布です。

二項分布 B (n, p) の特殊な極限として登場した単独のモデル。二項分布に対して

  • n → ∞(試行回数は非常に多い)
  • p → 0(1回あたりの成功確率は非常に小さい)
  • ただし λ = np は一定の有限値に固定

この3条件を同時に取るとポアソン分布 P (λ)という収束が起きます。

nとpの値がなくても、平均発生回数 λ\lambdaλ だけで記述できるのが特徴です。

P(X=k)=eλλkk!(k=0,1,2,)P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!}\qquad(k=0,1,2,\dots)

正規分布

ポアソン分布のλが限りなく大きいと、「中心極限定理」の影響でポアソン分布は正規分布に近づきます。

1回あたりの成功確率はほぼゼロ、試行回数は天文学的、その結果、平均成功回数が増えていきます。

X∼Poisson (λ)かつ、λ が十分大きいなら

X𝒩(μ,σ2)X \sim \mathcal{N}(\mu,\sigma^2)

正規分布にも式があるが、突き詰めると自由度が平均 E (X)= μと分散 V (X)=σ²のみになります。

二項分布やポアソン分布と異なり、 E (X)= μとV (X)= σ² を計算して求める必要がありません。

中心極限定理

  • 独立な確率変数をたくさん足すと、元の分布が何であっても、和や平均は正規分布に近づく。

1回の試行はばらつきが大きいため、可能な限り試行してその平均を取りばらつきを小さくした分布

X=1ni=1nXi\bar X=\frac{1}{n}\sum_{i=1}^n X_i

Xiは一回ごとの試行。これをn回繰り返して平均を取り、毎回その値が出たと仮定します。

μX=1ni=1nμi\mu_{\bar X}=\frac{1}{n}\sum_{i=1}^n \mu_i
σX2=1n2i=1nσ2=σ2n\sigma^2_{\bar X}=\frac{1}{n^2}\sum_{i=1}^n \sigma^2=\frac{\sigma^2}{n}

分散は2乗した量なので効果が2乗で効いてくるため、nではなくn²で割っています。

そうするとより偏りの少ない以下の正規分布が完成します。分散が1/nに小さくなります。

X𝒩(μ,σ2n)\bar X \sim \mathcal{N}(\mu,\frac{\sigma^2}{n})

指数分布

指数分布とは,ランダムなイベントの発生間隔を表す分布です。

ランダムな現象を「発生間隔で捉えると指数分布,発生回数で捉えるとポアソン分布」と覚えましょう。

その他の分布

幾何分布当たりが出るまで何回引く?(戻す)

E[X]=1pE[X] = \frac{1}{p}
Var(X)=1pp2\mathrm{Var}(X) = \frac{1-p}{p^2}

超幾何分布戻さずに何個当たりを引く?

母集団サイズ NN、成功数 KK、抽出数 nn、成功数を XX

E[X]=nKNE[X] = n \frac{K}{N}
Var(X)=nKN(1KN)NnN1\mathrm{Var}(X) = n \frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}

負の二項分布:成功が r 回出るまでに、全部で何回試行するか

成功回数 rrr、成功確率 ppp、成功が r 回出るまでの試行回数 X

E[X]=rpE[X] = \frac{r}{p}
Var(X)=r(1p)p2\mathrm{Var}(X) = \frac{r(1-p)}{p^2}

点推定と不偏分散

点推定:母数を「1つの値」で当てにいく。ここでは標本平均を用いて推定を行います。

nが十分に大きくない場合には標本分散の期待値は母分散に一致せず、母分散より小さくなります。

その場合、標本分散の値を調整した「不偏分散」s² を算出します。

これは分散を求める際に nの代わりに (n-1)で割る(次元が1つ減るかららしい、難しいので省略)

s2=1n1i=1n(xix)2s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2

標準誤差 SE

標本平均の標準偏差(標本平均が、標本を取り直したときにどれくらい動くか)です。

平均の標準偏差的な役割で、通常の標準偏差 σ や s とは別なので注意が必要。

SE(X)=s2n=snσn\mathrm{SE}(\bar X)=\sqrt{\frac{s^2}{n}}=\frac{s}{\sqrt{n}}\sim\frac{\sigma}{\sqrt{n}}

区間推定

区間推定:母数が入っていそうな「範囲」を出します。

母分散 μが分かっている場合は、 μを用いて標準正規分布を用いて信頼区間を算出します。

母分散 μが分からない場合は、不偏分散 s²を用いて、t分布を用いて信頼区間を算出します。

同じ方法で何度も標本を取り直すと、作った信頼区間のうち約○○%に本当の平均μが含まれます。

①得られているデータから標本平均を出す

②不偏分散s²から標準誤差SEを計算し、母平均を求める

(sn)2=n(μx)2n(\frac{s}{\sqrt{n}})^2=\frac{n(\mu-\bar x)^2}{n}

左辺:標準偏差の2乗で分散、右辺:各値から平均を引いて2乗、同値なのでn倍、平均でnで割る

t分布

母分散が分からない状態では σ²の代わりに不偏分散 s²を用いるが、この時は正規分布表は使えません。

代わりに使うのが「t分布」で、tは以下のように定義されます

t=Xμs/nt = \frac{\bar X – \mu}{s / \sqrt{n}}

分子 = 実際の差、分母 = 標本平均の「予想されるばらつきSE」、差が偶然のばらつきの何倍かを測ります。

E[t]=0(ν>1)E[t] = 0 \quad (\nu > 1)
Var(t)=νν2(ν>2)\mathrm{Var}(t) = \frac{\nu}{\nu – 2} \quad (\nu > 2)

カイ二乗分布

t分布では「平均の不確かさ」を扱う道具(作った信頼区間の約○○%に本当の平均μが含まれるか)

一方でカイ二乗分布は「分散の不確かさ」を扱う道具で、実はt分布もカイ二乗分布を含んでいます。

t分布では母分散 σ²の代わりに標準分散 s² を用いたが、そもそもsも不確実な値です。

分子:平均との差は、分母:普通のズレ の何倍か?を求める。分母があることで標準化されます。

Z=XμσZ = \frac{ X – \mu}{\sigma}

これを足し合わせたものをカイ二乗と定義しています。難しいので割愛。

E(X)=kE(X) = k
V(X)=2kV(X) = 2k

F分布

F分布は「2つのばらつきが偶然の差かどうか」を判断するための分布です。

F=S12/σ12S22/σ22=χdf12/df1χdf22/df2F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} = \frac{\chi^2_{df_1}/df_1}{\chi^2_{df_2}/df_2}

検定と過誤

現実(真実)\判断帰無仮説を棄却しない帰無仮説を棄却する
帰無仮説が正しい正しい判断第1種の過誤(α)
帰無仮説が正しくない第2種の過誤(β)正しい判断(検出成功)

α:誤って差あり判定する確率(第1種の誤り)→冤罪を出す確率

β:誤って差なし判定する確率(第2種の誤り)→見逃しを出す確率

1−β:本当に差があれば発見できる確率(検出力)

最小二乗法

観測値とモデルのずれが 最も小さくなる ようにパラメータを決める方法です。

  • それぞれのデータで(実際 − 予測)のズレを出す
  • そのズレを二乗 する(マイナスをなくすため)
  • それを全部足す
  • その合計が いちばん小さくなるように予測の式を決める

答えとなる式が直線だとします。そうすると「y = ax + b」のaとbを求めたい。

予測値は

y^i=axi+b\hat y_i = ax_i + b

残差は

ei=yiy^i=yi(axib)e_i = y_i – \hat y_i=y_i -(ax_i-b)
S(a,b)=i=1n(ei2)=i=1n(yi(axi+b))2S(a,b) =\sum_{i=1}^n \left(e_i^2\right) =\sum_{i=1}^n \left(y_i – (ax_i + b)\right)^2

すると展開された式はaとbの二つの未知数を持つ二次関数になります。

下に凸の二次関数が最小になる条件は、微分して0になることなので、aとbでそれぞれ偏微分。

そうすると連立方程式ができるので、それを解くと以下の解が出てきます。

a=nxiyixiyinxi2(xi)2a = \frac{ n\sum x_i y_i – \sum x_i \sum y_i }{ n\sum x_i^2 – (\sum x_i)^2 }
b=yiaxinb = \frac{ \sum y_i – a\sum x_i }{n}

おわりに

↑このブログ記事のように、何を意味しているかを書いているので面白かった本

式を暗記するだけでは統計はなかなか身につきません。

「なぜこの形になるのか」を一度立ち止まって考えることで、分布同士のつながりが見えてきます。

統計検定2級は、その良い訓練素材だと感じました。

勉強の記事