正規分布(normal distribution)

偏差 (deviation)

  • 平均が0になるようにデータを変換すること
  • つまりは、原点を平均に変えているということ

$$ d = x - \bar{x} $$

標準化 (standardization)

  • 平均が0、分散(S.D.)が1になるようにデータを変換すること
  • つまりは、原点を平均に変え、x軸の1メモリをS.D.にしているとうこと
  • そのため、zは標準正規分布$N(0,1)$に従う

$$ z = \frac{x - \overline{x}}{s} $$

正規分布 (normal distribution)

  • $\mu$を平均値、を$\sigma$標準偏差とすると、正規分布の確率密度関数(または分布関数)は次となる。

$$ f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2} {2\sigma^2} \right) \hspace{20px} (-\infty < x < \infty) $$

  • 正規分布の単位
    • X軸はS.D.
    • Y軸は相対度数
  • 確率変数$X$が正規分布$N(\mu,\sigma^2)$に従うとき、$aX+b$は正規分布$N(a\mu+b,a^2\sigma^2)$に従う

標準正規分布 (standard normal distribution)

  • 平均が0、分散(標準偏差)が1の正規分布のこと。標準正規分布は以下の式で表される。
  • 不要な平均と分散が式から省略されている

$$ f(x) = \frac{1}{\sqrt{2\pi}} \exp{\left(-\frac{x^2}{2}\right)} \hspace{20px} (-\infty < x < \infty) $$

Z値 (Z-score)

  • 平均から何標準偏差分離れているかを表す指標
  • 下の例だと、平均から2.5標準偏差分離れている

$$ x = 20, \bar{x} = 10, s = 4 \\ z = \frac{x - \overline{x}}{s} \\ z = \frac{10}{4} = 2.5 $$

$\sigma$区間 (68–95–99.7 rule)

用語意味割合
$1\sigma$区間平均を中心とした$-\sigma$から$+\sigma$までの区間68.26%
$1.96\sigma$区間平均を中心とした$-1.96\sigma$から$+1.96\sigma$までの区間95%
$2\sigma$区間平均を中心とした$-2\sigma$から$+2\sigma$までの区間95.44%
$3\sigma$区間平均を中心とした$-3\sigma$から$+3\sigma$までの区間99.73%

一般正規分布

  • $x$ を標準正規分布のデータ、$d$と$\sigma$と$\mu$をそれぞれ一般正規分布のデータ、S.D.、平均と置くと、
    • $d = \sigma \times x + \mu$
  • 平均が$\mu$、S.D.が$\sigma$の正規分布を標準正規分布に戻すには、
    • $z = ( x - \mu) \div \sigma $
  • 平均が$\mu$、S.D.が$\sigma$の正規分布のS.D. 1個分の範囲のデータは
    • $(\mu + 1 \sigma) \leqq z \leqq (\mu + 1 \sigma) $
  • 平均が$\mu$、S.D.が$\sigma$の正規分布のS.D. 2個分の範囲のデータは
    • $(\mu + 2 \sigma) \leqq z \leqq (\mu + 2 \sigma) $

95%区間の算出

  • データxが平均$\mu$、S.D.が$\sigma$の一般正規分布のデータである時、
  • $z = (x - \mu) \div \sigma$という計算をすると、データ$z$は標準正規分布のデータとなる
  • データ$x$が、平均が$\mu$、S.D.が$\sigma$の正規分布に従う場合の95%の信頼区間は次の不等式で求まる

$$ -1.96 \leqq \frac{(x-\mu)}{\sigma} \leqq 1.96 $$

  • 宇宙人の平均身長$\mu$は200cm, そのS.D.は10の一般正規分布のデータの時、
  • $x$は次の範囲内になる(つまり、宇宙人の95%は180cmから220cmの間ぐらいに入る)。
  • $180.4 \leqq x \leqq 219.6$

Terms

用語意味
偏差(deviation)ある集団に属する数値と、その集団の基準値(平均や中央値など)との差
標準化(standardization)平均が0、分散が1となるようにデータを変換すること
正規分布(normal distribution)ガウス分布や誤差分布とも言われる。平均値と標準偏差で求められる
標準正規分布(standard normal distribution)標準偏差が1、平均が0の正規分布
一般正規分布(general normal distribution)標準偏差が1、平均が0ではない正規分布
  • 正規分布は、平均値μと標準偏差σを与えると一種類に決まる。
  • S.D.1個分前後のデータが現れることは月並みに起きる
  • S.D. 2個分を超えるのは19/20なので、そうそう起きない

References:

  • https://en.wikipedia.org/wiki/Normal_distribution
  • https://bellcurve.jp/statistics/glossary/2080.html
  • https://ikuty.com/2018/06/17/normal_distribution/
  • https://ja.wikipedia.org/wiki/%E5%81%8F%E5%B7%AE
  • https://to-kei.net/distribution/normal-distribution/standardization/
  • https://data-science.gr.jp/theory/tbs_standardization.html