相関と回帰

用語様子
相関(correlation)xとyを対等な様子
回帰(regression)xからyが決定される様子

散布図と分割表

用語利用
散布図(scattergram)量的変数
分割表(contingency table)離散変数

総関係数/積率相関係数(product-moment correlation coefficient)

  • 量的変数間の直線的関連の程度を示す係数
  • 分子は共分散、分母はxとyの標準偏差の積

$$ r_{xy} = \frac{S_{xy}}{SxSy} $$

共分散 (variance-covariance matrix)

  • xの偏差とyの偏差の積の平均値

$$ C_{xy} = S_{xy} = \sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) \times \frac{1}{n} \
$$

分散(Variance)

$$ S^2_x = \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2 }{n} \\ S^2_y = \frac{ \sum_{i=1}^{n}(y_i - \bar{x})^2 }{n} \\ $$

S.D.

$$ S_x = \sqrt{ \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2 }{n} } \\ S_y = \sqrt { \frac{ \sum_{i=1}^{n}(y_i - \bar{x})^2 }{n} } \\ $$

相関関係と因果関係

関係意味
相関関係(correlation)因果関係たための必要条件
因果関係(causation)p ⇒ q

相関関係と相関関係の関係

$$ 相関関係 \subset 因果関係 $$

見かけ上の関係/見せかけの相関/擬似相関(Spurious relationship)

  • 上の例で言えば、sunburnとice creamのデータは相関関係にあるが、見せかけの関係。
  • 背景にある天候が影響しているから。

偏相関係数(partial correlation coefficient)

  • 2つの変数の相関が第3の変数によって高められる、または低められる場合に、2変数から第3の変数の影響を取り除いて求めた相関係数
  • 見せかけの相関の判別に有効
  • 下の式はzの影響を排除したxとyの相関を表している

$$ r_{xy\cdot z} = \frac{r_{xy} - r_{xz}r_{yz}} {\sqrt{1 - r_{xz}^2} \sqrt{1 - r_{yz}^2}} $$

順位相関係数(Spearman's rank correlation coefficient)

  • 確率変数が順位のモノに使用する相関係数
  • 2変数のデータの順序が全て一致する場合は1、逆順にすると全て一致する場合は-1の値をとる
  • なお、$d_i$はデータ$X_i$と$Y_i$の順位の差

$$ r_s = 1 - \frac{6\displaystyle \sum_{i = 1}^n {d_i}^2}{n(n^2 - 1)} $$

references:

  • https://bellcurve.jp/statistics/glossary/1233.html
  • https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82
  • https://bodais-datascientist.blogspot.com/2017/04/blog-post_25.html
  • https://toukeigaku-jouhou.info/2015/08/26/post-441/
  • https://bellcurve.jp/statistics/glossary/821.html
  • https://bellcurve.jp/statistics/glossary/2052.html
  • https://bellcurve.jp/statistics/glossary/1370.html
  • https://bdm.change-jp.com/?p=3137