Deepbook

AIの原理の理解のための基本的な知識のまとめ

まとめる際のRules

  • 機械学習のために次をまとめる
    • 論理学、統計学、解析学、確率論、線形代数、確率論、代数学、幾何学、計算機科学など
  • 目的は知識のインデックス
    • 大体の概念をつかめることを目的にする
    • 「わかる」 ことは 「分ける」 ことなので、どんどん分けていく。
  • 速度重視
    • 速攻でまとめるために、ほかの文献から引用しまくる
    • 項目だけ作るのもOK
    • 用語 > 概念 > 数式 > 例 > 違い の優先順位
    • ただし、用語は英語名も入れる
  • 間違いは気にしない
    • 用語や数式、文章、句読点などの間違いは気にしない。
      • めんどくさいので、ベクトルとboldにしていないなど
    • 間違ってたら後々修正すればいいだけなので
  • プログラミングの実装はなるべくまとめない
    • 実装は知得ではなく体得するものなので
    • 手持ちのjupyter nootbookにまとめる
  • 参考文献は必ず記載する

LaTeX

ViとVimのようなカンケい

REFERENCES:

  • http://hooktail.sub.jp/nocategory/latexImpress/
  • https://48n.jp/blog/2016/07/12/sample-of-formula/
  • https://home.hiroshima-u.ac.jp/nyoho/mathenglish.html

変数 (variable)

$$ x = 10 $$

変数の修飾

全ての変数(all variable)

  • $n$の下付き文字で定義時に表す

$$ X = X_1, X_2, \cdots ,X_n $$

各変数(every variable)

  • n項演算子と$i$の下付き文字で表す

$$ S = \sum_{i=0}^{n}X_i $$

各変数(any variable)

  • n項演算子なしの場合は、$i$の下付き文字で表す

$$ E(X_i) = \mu $$

推定値

$$ \hat{x} = 12 $$

平均

$$ \bar{x} = 12 $$

分数 (Fraction)

出力$\TeX$
$\frac{a}{b}$\frac{a}{b}

記号 (symbol)

出力$\TeX$
$=$=
$+$+
$-$-
$\times$\times
$\div$\div
$\pm$\pm
$\mp$\mp
$\neq$\neq
$\sim$\sim
$\simeq$\simeq
$\fallingdotseq$\fallingdotseq
$\risingdotseq$\risingdotseq
$\equiv$\equiv
$>$>
$<$<
$\geq$\geq
$\geqq$\geqq
$\leq$\leq
$\leqq$\leqq
$\gg$\gg
$\ll$\ll
$\oplus$\oplus
$\ominus$\ominus
$\otimes$\otimes
$\oslash$\oslash
$\circ$\circ
$\cdot$\cdot
$\cdots$\cdots
$\bullet$\bullet
$\in$\in
$\ni$\ni
$\notin$\notin
$\subset$\subset
$\supset$\supset
$\subseteq$\subseteq
$\supseteq$\supseteq
$\cap$\cap
$\cup$\cup
$\emptyset$\emptyset
$\infty$\infty

集合 (set)

  • 集合は大文字
  • 元(要素)は小文字

$$ X = \{x_1, x_2, x_3\} $$

特徴づけ (characterize)

性質P(property)が対象Xを特徴づける

$$ X = \{x | P(X) \} $$

もしくは条件

$$ X = \{x | x \in \mathbb{R} \} $$

条件付き確率($P(X|C)$)の場合は括弧、特徴付けは波括弧の中でパイプをつかう

集合の関係

出力$\TeX$
$\in$\in
$\ni$\ni
$\notin$\notin
$\subset$\subset
$\supset$\supset
$\subseteq$\subseteq
$\supseteq$\supseteq
$\cap$\cap
$\cup$\cup
$\emptyset$\emptyset
$\infty$\infty

数の集合

意味出力$\TeX$
自然数$\mathbb{N}$\mathbb{N}
整数$\mathbb{Z}$\mathbb{Z}
有理数$\mathbb{Q}$\mathbb{Q}
実数$\mathbb{R}$\mathbb{R}
複素数$\mathbb{C}$\mathbb{C}

$$ 3\in\mathbb{N} \\ 3.14\notin\mathbb{Z} \\ \mathbb{Q}\subset\mathbb{R} \\ $$

三角関数 (trigonometric function)

出力$\TeX$
$\sin x$\sin x
$\cos x$\cos x
$\tan x$\tan x
$\csc x$\csc x
$\sec x$\sec x
$\cot x$\cot x
$\arcsin x$\arcsin x
$\arccos x$\arccos x
$\arctan x$\arctan x
$\sinh x$\sinh x
$\cosh x$\cosh x
$\tanh x$\tanh x

ギリシャ文字

出力$\TeX$出力$\TeX$読み方
$A$A$\alpha$\alphaアルファ
$B$B$\beta$\betaベータ
$\Gamma$\Gamma$\gamma$\gammaガンマ
$\Delta$\Delta$\delta$\deltaデルタ
$E$E$\epsilon$\epsilonイプシロン
$Z$Z$\zeta$\zetaゼータ
$H$H$\eta$\etaイータ
$\Theta$\Theta$\theta$\thetaシータ
$I$I$\iota$\iotaイオタ
$K$K$\kappa$\kappaカッパ
$\Lambda$\Lambda$\lambda$\lambdaラムダ
$M$M$\mu$\muミュー
$N$N$\nu$\nuニュー
$\Xi$\Xi$\xi$\xiクシー
$O$O$o$oオミクロン
$\Pi$\Pi$\pi$\piパイ
$P$P$\rho$\rhoロー
$\Sigma$\Sigma$\sigma$\sigmaシグマ
$T$T$\tau$\tauタウ
$\Upsilon$\upsilon$\upsilon$\upsilonユプシロン
$\Phi$\Phi$\phi$\phiファイ
$X$X$\chi$\chiカイ
$\Psi$\Psi$\psi$\psiプシー
$\Omega$\Omega$\omega$\omegaオメガ

変数

出力$\TeX$読み方
$\varepsilon$\varepsilonイプシロン
$\vartheta$\varthetaシータ
$\varrho$\varrhoロー
$\varsigma$\varsigmaシグマ
$\varphi$\varphiファイ

REFERENCES:

  • https://qiita.com/shepabashi/items/27b7284d1f0007af533b

数列 (sequence)

$$ x = \{1, 2, 3\} $$

級数 (series)

$$ s = \sum_{i=0}^{n}x_i $$

区間 (section)

開区間

$$ x = (1, 2, 3) $$

閉区間

$$ x = [1, 2, 3] $$

ベクトル (vector)

$$ \vec{a} = \mathbf{a} = (1, 2)^T $$

出力$\TeX$
$\vec{x}$\vec{x}
$\overrightarrow{x} $\overrightarrow{x}
$\hat{x}$\hat{x}

累乗/冪乗 (power)

同じ数を掛け合わせること

表記

出力$\TeX$
$e^x$e^x

累乗と冪乗の違い

意味
累乗指数部が自然数
冪乗指数部が実数

指数 (exponential)

出力$\TeX$
$\exp x$\exp x

対数 (Logarithm)

定義域は[0, inf], 値域は[-inf, 0]

出力$\TeX$
$\log x$\log x
$\log_a x$\log_a x
$\ln x$\ln x

常用対数と自然対数

-正式表記省略表記別表記
自然対数$log_{e} x$$log x$$ln x$
常用対数$log_{10} x$-$log x$
ニ進対数$log_{2} x$-$lg x$
指数関数$e^x$-$exp x$
  • 対数は、底(base) $a$と真数(antilogarithm) $x$を使って $log_a x$ と書くのが正式な表記。
  • 「2 を何乗したら 8 になるか」を表す数は、 $log_2 8=3$ となる

まとめ

-指数真数
指数関数xy定数
自然対数yx定数

REFERENCES:

  • https://atarimae.biz/archives/12731

累乗根 (root)

出力$\TeX$
$\sqrt{x}$\sqrt{x}
$\sqrt[n]{x}$\sqrt[n]{x}

Square Root (平方根)

The square root of x

$$ \sqrt{x} $$

Cube Root (立方根)

The cube root of x

$$ \sqrt[3]{x} $$

X-th 根

The x-th root of n

$$ \sqrt[n]{x} $$

行列 (matrix)

集合は小文字、行列は太字

$$ \mathbf{A} = \begin{pmatrix} a & b \\ c & d \end{pmatrix} $$

極限 (limit)

出力$\TeX$
$lim_{n \to \infty}$lim_{n \to \infty}

微分 (derivative)

微分・勾配記号

出力$\TeX$
$\nabla$\nabla
$\partial$\partial

1次微分

$$ \dot x = x^{\prime} = dx/dt=\frac{d x(t)}{d t}=\frac{d}{d t}\left(x(t)\right), $$

2次微分

$$ \ddot x = x^{\prime \prime} = d^{2}x/dt^{2}=\frac{d^{2} x(t)}{d t^{2}}=\frac{d^{2}}{d t^{2}}\left(x(t)\right), $$

偏微分

$$ \frac{\partial f(x,y)}{\partial x} =\partial_{x}f(x,y)=f_{x}(x,y), $$

REFERENCES:

  • http://hooktail.sub.jp/nocategory/latexImpress/

積分 (Integral)

$$ \int f(x)dx, \ g(x)=\int^{x} f(x')dx', \ \int_{\alpha}^{\beta} f(x)dx. $$

面積分 (surface integral)

$$ \int\mspace{-11mu}\int_{S} f(x,y)\mspace{2mu}{\rm d}x \mspace{2mu}{\rm d}y $$

線積分 (line integral)

$$ \quad \oint_{C} f(z){\rm d}z $$

REFERENCES:

  • http://hooktail.sub.jp/nocategory/latexImpress/

組合せ (combination)

出力$\TeX$
${}_nC_r${}_nC_r
${}_nH_r${}_nH_r
${}_nP_r${}_nP_r

階乗 (factorial)

$$ 5! = 5 \times 4 \times 3 \times 2 \times 1 $$

科学的記数法 (Scientific Notation)

$$ n \times 10^m $$

量を抽象化したもの

ゼロ

「ない」ものが「ある」こと

次元

特徴

完全数

自分自身を除く正の約数の和に等しくなる自然数のこと

EX)

$$ 6 = 1 + 2 + 3 \\ 28 = 1 + 2 + 4 + 7 + 14 $$

メルセンヌ数

2の冪よりも 1 小さい自然数、すなわち $2n − 1$ (n は自然数)の形の自然数のこと

EX)

$$ M_n = 2^n - 1 \\ M = 1, 3, 7, 15, 31, 63, 127, 255, 511, 1023, 2047, 4095, 8191, 16383, 32767, 65535, … $$

素数 (prime number)

一とその数自身との外には約数がない正の整数。

関数

ある複数の量の関係を抽象化したもの

数の集合 (set of numbers)

集合記号意味
自然数(natural number)N0を含まない1の倍数(see ペアノの公理)
整数(integer)Z0と自然数と自然数のマイナス倍を持つ数
有理数(Rational number)Q整数に分数を加えた数。分数は小数点以下は同じ数が続くか、ループする。
無理数(irrational number)R\Q実数と有理数の差集合。$\sqrt 2$などの小数点以下がループしない
実数(real number)R無理数+有理数
複素数(complex number)C虚数を追加した、複素数
宇宙(unverse)Ucollection that contains all the entities

わかりやすい図

自然数 ⊂ 整数 ⊂ 有理数 ⊂ 実数 ⊂ 複素数 (記号で書くと N ⊂ Z ⊂ Q ⊂ R ⊂ C)

※ algebraic numberは代数的数

4元数、8元数

  • 他にも、複素数を拡張した、4元数や8元数などもある

虚数 (Imaginary Number)

$$ i \times i = -1 $$

複素数 (Complex number)

実数(Real number)と虚数(Imaginary number)の線型結合の形に表される数

例)

$$ \dot{Z} = Z = 1 + 3i $$

実部 (Real part)

実部の数字

$$ \dot{Z} = 1 + 3i \\ \Re(Z) = \operatorname{Re}(Z) = 1 $$

虚部 (Imaginary part)

複素数のiを覗いた数字

$$ \dot{Z} = 1 + 3i \\ \Im(Z) = \operatorname{Im}(Z) = 3 $$

複素平面/ガウス平面 (Complex plane/Gaussian plane)

X軸が実数、Y軸が虚数の平面

複素平面の考え方

  • 実数軸を180度回転すると、マイナスの数になる
  • 1の点を180度回転すると、-1の点になる
  • 他方、複素平面では1を90度回転すると、iになる

複素数の大きさ (absolute value)

デカルト平面と同じ、原点からの距離

$$ \sqrt{\Re(z)^2 + Im(z)^2} $$

偏角 (argument)

複素平面の水平方向とのなす角。 分子は虚部、分母は実部で計算する

$$ \angle \dot{Z} = tan^{-1} ( \frac{\operatorname{Im}(\dot{Z})}{\operatorname{Re}(\dot{Z})} ) $$

例)

$$ \dot{Z} = 1 + 3i \\ $$

実部と虚部は次のようになる

$$ \operatorname{Re}(z) = 1 \\ \operatorname{Im}(z) = 3 $$

角度を計算すると、

$$ \angle \dot{Z} = tan^{-1} ( \frac{3}{1} ) \sim 73 $$

複素共役 (Conjugate complex numbers)

  • 虚部の符号を逆転させた複素数
  • 複素数の頭にバーをつけて表現する

$$ \dot{Z} = 1 + 3i \\ $$

の場合は、

$$ \bar{\dot{Z}} = 1 - 3i $$

複素共役の性質

任意の複素数 $z=a+bi$ に対して,$z\bar{z}$ は非負実数となる

REFERENCES:

  • https://texblog.org/2013/11/27/complex-number-symbols-in-latex/
  • https://mathtrain.jp/kyoyaku

命題

正しいか間違っているかが、明確に決まる文(主張)や式

命題である例

  • 「人間は哺乳類である」
  • 「4は偶数である」

命題ではない例

  • 「岡山県は人口が多い」
  • 「100は大きな数である」

REFERENCES:

  • http://www2.edu-ctr.pref.okayama.jp/math/301/30109.html

公理

数学の理論体系で定理を証明する前提として仮定する いくつかの事柄

定理

公理に基づき、論証によって証明された命題

条件

x の内容が決まれば命題となる事柄 p(x) のことを、x を変数 (variable)とする条件 (condition)という。

EX)

xは正の数である

REFERENCES:

  • http://www.ftext.org/text/subsubsection/1030

仮定と結論

$$ p => q $$

$p => q$ は命題
$p$は仮定(premises)
$q$は結論(conclusion)

EX)

3の倍数は6の倍数である

nは3の倍数(仮定) ⇒ nは6の倍数(結論)

証明

事柄・命題が真である(事実と違わない)ことを明らかにすること
証明(ある命題が正しいか)は、その条件を一般化した集合を用いる

$$ p \Rightarrow q \Leftrightarrow P \subset Q $$

pならばqはPがQの部分集合と同値

EX)

命題: 6の倍数は3の倍数

  • nが6の倍数($p$) ⇒ nは3の倍数($q$)
  • $Q=\{n|nは3の倍数\} = \{3, 6, 9, 12...\}$
  • $P=\{n|nは6の倍数\} = \{6, 12...\}$

ベン図

論理包含(implication、IMP)

  • 命題 p → q には,集合の包含関係 P ⊂ Q が対応する
  • これを集合の要素で表わせば,「どんな x についても,x ∈ P → x ∈ Q 」になる
  • \(P ⊂ Q ⇔ \bar{Q} ⊂ \bar{P}\) だから, \(p → q ⇔ \bar{q} → \bar{p}\) が成り立つ

必要条件(necessary condition)と十分条件(sufficient condition)

  • 必要条件: 「PならばQ 」→「Qが成り立つにはPが必要」
  • 十分条件: 「QならばP 」→「Pが成り立つためにはQが成り立てば十分」

英語

  • 必要条件は、necessary condition
  • 十分条件は、sufficient condition
  • 必要十分条件は上の2つを合わせて、necessary and sufficient condition

逆・裏・対偶

日本語英語意味
命題conditionalif p, then q
converseif q, then p
inverseif not p, then not q
対偶contrapositiveif not q, then not p

真理値表

命題がと対偶は真偽が一致する

REFERENCES:

  • https://www.chilimath.com/lessons/introduction-to-number-theory/converse-inverse-and-contrapositive-of-conditional-statement/

論理

論証と実証

  • 論証: proof with deductive or inductive logic
  • 実証: 事実によって証明する
  • 検証: 調査して仮説を証明する
  • 例証: 具体的な事例によって証明する

妥当性

ある論証が、前提が全て真であれば結論も必ず真となるような形になっている時、その論証を妥当である(英: Validity)という

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E5%A6%A5%E5%BD%93%E6%80%A7

演繹法 (deduction)

  • 数理演繹法
  • 積極的評価(否定に弱く、肯定に強い)
    • 例) 悪魔の証明、「〜はない」の証明は難しい
    • 強くする条件は、条件の質(quantity)
    • 例えば証明、前提が定理、公理とか
  • 合理主義的
  • 全体から部分への流れ
    • 日本語的
      • 神奈川県の水の中のカエル

帰納法 (induction)

  • 統計帰納法
  • 消極的評価(否定に強く、肯定に弱い)
    • 例) 仮説検定の「棄却できない」という肯定表現
    • 強くする条件は、条件の量(quantity)
    • 例えば、仮説検定、試行回数が多いなど
  • 経験主義的
  • 部分から全体への流れ
    • 英語的
      • Frog in a pool in the United States

妥当性はあれだが、

  • 演繹法
    • しょっぱいのは味噌汁(全体)。このスープはしょっぱい。ならば、このスープは味噌汁(部分)
  • 帰納法
    • スープを少しなめたら味噌汁の味がした(部分)。スープは均等に混ざっている。ならば、スープは味噌汁だ(全体)

演繹的な論証の例

  • 全ての人間(P)は死ぬ(Q)。
    • P⇒Q
  • ソクラテス(n)は人間(P)である。
    • n∈P
  • 結論:ソクラテス(n)は死ぬ(Q)。
    • n⇒Q

REFERENCES

  • https://deepmind.com/blog/article/alphago-zero-starting-scratch
  • https://en.wikipedia.org/wiki/Inductive_bias
  • https://quizlet.com/jp/306144855/5%E7%B5%B1%E8%A8%88%E5%B8%B0%E7%B4%8D%E6%B3%95%E6%95%B0%E7%90%86%E6%BC%94%E7%B9%B9%E6%B3%95%E6%84%8F%E5%91%B3%E8%A7%A3%E9%87%88%E6%B3%95-flash-cards/
  • https://ja.wikipedia.org/wiki/%E8%83%8C%E7%90%86%E6%B3%95 http://mickindex.sakura.ne.jp/reichenbach/rcb_RaE_jp.html

一般化と特殊化

  • 基本的な数学のテクニック
  • 物事を一般化して、その一般化した理屈の特殊なケースとして、命題を証明する
  • 数字(number)がまさに存在の概念(counting)を一般化したもの
日本語英語
一般化(≒抽象化)Generalization
特殊化(≒具体化)Specialization

背理法

ある命題 P を証明したいときに、P が偽であると仮定して、そこから矛盾を導くことにより、P が偽であるという仮定が誤り、つまり P は真であると結論付けること

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E8%83%8C%E7%90%86%E6%B3%95

三段論法

「大前提」と「小前提」があり、最後に「結論」を出す方法

Non-Truth-Functional Interpretation

  • 命題p: 東京にすむこと
  • 命題q: 日本に住むこと
pqp⇒q
TTT東京にすむならば日本に住む
TFF東京に住むならば日本に住んでいない
FTT/F東京に住んでいないならば日本に住んでいる
FFT/F東京に住んでいないならば日本に住んでいない
> a=false,b=true
> if (a) b
undefined

REFERENCES

  • http://www.geisya.or.jp/~mwm48961/kou3/gyaku.htm
  • https://ja.wikipedia.org/wiki/%E8%AB%96%E7%90%86%E5%8C%85%E5%90%AB
  • https://mathtrain.jp/conditions
  • http://7shi.hateblo.jp/entry/2016/07/31/143604

数学的帰納法

自然数に関する命題 P(n) が全ての自然数 n に対して成り立っている事を証明するための、次のような証明手法

  1. 基底: P(1) が成り立つ事を示す。
  2. 帰納法: 任意の自然数 k に対して、「P(k) ⇒ P(k + 1)」が成り立つ事を示す。
  3. 演繹法: 以上の議論から任意の自然数 n について P(n) が成り立つ事を結論づける。

※ 帰納法でも最後は演繹法を使っている

プログラムでの例

命題: 0からnまでの和は$\frac{n\times (n+1)}{2} = \sum_{i=0}^n n_i$

def sum(n):
    if n == 0: # 基底
        return n
    return n + sum(n-1) # 帰納

検算

>>> n = 100
>>> sum(n) == (n * (n+1))/2
True

references:

  • https://ja.wikipedia.org/wiki/%E6%95%B0%E5%AD%A6%E7%9A%84%E5%B8%B0%E7%B4%8D%E6%B3%95

自然性

  • 自然かどうか、あるべくしてあること
  • 事物の存在の尤度とも

自然演繹

TODO

畳み込み/合成積(convolution)

「二つの関数」から「一つの関数」を作る演算 関数 g を平行移動しながら関数 f に重ね足し合わせる二項演算

https://ja.wikipedia.org/wiki/%E7%95%B3%E3%81%BF%E8%BE%BC%E3%81%BF

Python 3.8.0 (default, Oct 23 2019, 18:51:26)
[GCC 9.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import functools
>>> lst = [1, -3, 5, -7, 9]
>>> g = lambda x,y:x+y
>>> res = functools.reduce(g, lst)
>>> print(res)
5

関数定義

連続型(畳み込み積分)

$$ h(x)=\displaystyle\int_{-\infty}^{\infty}f(t)g(x-t)dt $$

離散型(畳み込み和)

$$ c_n=\displaystyle\sum_{t=-\infty}^{\infty}a_tb_{n-t} $$

REFERENCES:

  • http://www.nslabs.jp/python-higher-order-functions.rhtml

カリー化/部分適用(currying)

Python 3.8.0 (default, Oct 23 2019, 18:51:26)
[GCC 9.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> xy = lambda x, y: x*y
>>> xy(10,2)
20
>>> curried_xy = lambda x: lambda y: x*y
>>> curried_xy(10)(2)
20
>>>

フーリエ変換

時間$t$の関数$f(t)$を、周波数$ω$の関数$F(ω)$に移す変換

フーリエ級数

振幅、周期、周波数、角速度

三角関数意味単位
振幅(amplitude)上下の大きさなし
周期(period;T)一回上下するのに何secかかるか何秒(sec)
周波数(frequency; f)1秒間に何回上下するか何回(Hz)
角速度(angular velocity; $\omega$)1秒間に何度の角度が進むか何度(°/sec)

フーリエ級数数式

変数αで振幅の増減が可能

$$ f(\theta) = \alpha sin \theta $$

周期Tは周波数の逆数

$$ T=1/f $$

周波数fは周期Tの逆数

$$ f=1/T $$

角速度$\omega$は

$$ \omega = 360 \times f \\ \omega = 360 \times \frac{1}{T} \\ $$

$\theta$を時間tに変え、$\theta$を$n\omega t$に置き換えると、
つまり、ある定数n x 角速度 x 時間=1sあたりの距離を示している
速度x時間=距離ということ

$$ f(t) = \alpha sin(n \omega t) $$

波を複数組み合わせて表現するので、αは

$$ f(t) = \sum_{i=0}^\infty \alpha_i sin(n \omega t) $$

sin波では$t$が0と1の時に0になるので、係数αを加えても変えられない
そこでその逆の0と1の時に1になるcos波も加えて表現すると、

$$ f(t) = \sum_{i=0}^\infty \alpha_i cos(n \omega t) + \sum_{i=0}^\infty \beta_i sin(n \omega t) $$

さらにそこに、定数項を追加すると、フーリエ級数式となる。

$$ f(t) = \alpha_0 + \sum_{i=0}^\infty \alpha_i cos(n \omega t) + \sum_{i=0}^\infty \beta_i sin(n \omega t) \\ f(t) = \alpha_0 + \sum_{i=0}^\infty (\alpha_i cos(n \omega t) + \beta_i sin(n \omega t)) $$

ωは$360 \times \frac{1}{T}$だが、この360度をラジアンにすると、

$$ \omega = \frac{2\pi}{T} $$

なので、これを適用すると、

$$ f(t) = \alpha_0 + \sum_{i=0}^\infty (\alpha_i cos(\frac{2\pi n}{T} t) + \beta_i sin(\frac{2\pi n}{T} t)) $$

テイラー展開(taylor expansion)

テイラー展開とは、関数$f(x)$を多項式で近似する手法

f(x)のaを中心としたテイラー展開は

$$ f(x) = f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f”(a)}{2!}(x-a)^2+\cdots \\ =\sum_{n=0}^{\infty}\frac{f^{(n)}(a)}{n!}(x-a)^n $$

例) ネイピア数のべき乗

$$ e^x = \sum_{k=0}^{\infty} \frac{x^k}{k!} = 1 + \frac{x}{1!} + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots $$

マクローリン展開との違い

マクローリン展開とは$f(x)$の$0$を中心としたテイラー展開のことを指す

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E3%83%86%E3%82%A4%E3%83%A9%E3%83%BC%E5%B1%95%E9%96%8B
  • https://atarimae.biz/archives/10258
  • https://univ-study.net/taylor/

マクローリン展開 (Maclaurin expansion)

マクローリン展開を用いると,一般の関数$f(x)$を多項式で近似することができる。その多項式は,fの$x=0$における高階微分係数から定まる。

モーメント母関数などで使用されている。

$$ f(x)={\displaystyle\sum_{k=0}^{\infty}}f^{(k)}(0)\dfrac{x^k}{k!}\\ =f(0)+f'(0)x+\dfrac{f”(0)}{2!}x^2+\dfrac{f^{(3)}(0)}{3!}x^3\cdots $$

REFERENCES:

  • https://mathtrain.jp/maclaurin

ラディアン(radian)

半径の長さをもつ弧の角度

用語

日本語英語
circle
半径radius
直径diameter
円周circumference

ラディアン

半径 = r
直径 = 2 $\times$ r
円周 = 直径 x 3.14
$\pi$ = 3.14..
円周=2$\pi$ r

で、 1周のラジアンは円周/rなので、

$$ \frac{2\pi r}{r} = 2 \pi $$

で1周360°のラジアンは

$$ 2 \pi rad $$

1rad × 180/π = 57.296°

Radian to dgree

ラジアン to 度

$$ f(rad) = rad × 180/π = degree $$

度to ラジアン

$$ f(degree) = degree × π/180 = radian $$

指数(exponentiation)

対数の逆関数

  • 指数のメリット
    • 入力がマイナスでもプラスに変換できる($e^x$)。
    • ⇒ 単純な足し算で平均が出せる

微分

$$ (e^x)’=e^x $$

REFERENCES:

  • https://math.nakaken88.com/textbook/standard-derivative-of-exponential-and-logarithmic-function/

対数

指数の逆関数

変換:

  • 対数の割り算=対数の引き算
  • 対数の掛け算=対数の足し算
  • 対数の指数=対数の係数

微分

$$ (\log x)' = \frac{1}{x} \\ (\log_a x)' = \frac{1}{x \log a} $$

三角関数

三角関数
$\sin \theta$縦/ 斜め
$\cos \theta$横/ 斜め
$\tan \theta$縦 / 横

長さがrベクトルの点の座標

ある点$p = (a, b)$の長さは、

$$ r = |p| = \sqrt{a^2 + b^2} $$

rとx軸とのなす角をθとすると、
その点pの座標は、

$$ p = r(\cos \theta, \sin \theta) $$

※ rが分母のため。

座標系(Coordinate system)

直交座標系/デカルト座標(orthogonal coordinate system)

直交座標は$P(x,y)$で点の位置を表す方法である

極座標系(polar coordinates system)

極座標は$P(r,θ)$で点の位置を表す方法である

  • $r$: 極Oから点Pまでの距離
  • $θ$:点Pを見上げる角度(偏角)

斜交座標系(oblique coordinate system)

TODO

直交座評価から極座標への変換

極座標$(r,θ)$から直交座標$(x,y)$への変換は次となる.

$x=r\cosθ, ~~~ y=r\sinθ$

例) $(r,θ)=(2,\frac{\pi}{3})$のときの点P($\pi/3 =$ 60度)

$x=2\cos(\pi/3), y = 2\sin(\pi/3)$

よって、点Pは$(x, y)=(1,3)$となる

REFERENCES:

  • https://univ-study.net/nijigen/

双曲線関数(hyperbolic-function)

機械学習で出てくるのは、パボリックタンジェント

$$ y=\dfrac{e^x-e^{-x}}{e^x+e^{-x}} $$

references:

  • https://mathwords.net/haipaborictan
  • https://univ-study.net/hyperbolic-function-koushikimatome/

ランダウの記号/O-記法 (Landau symbol)

関数の極限などによく用いられるオミクロン記号を使った記法

実数 $a$ の十分近くで定義された関数 $f(x),g(x)$ について、$a$ に十分近い $x(≠a)$ に対応する $|f(x)/g(x)| ≤C$ を満たす定数 $C$ が存在するとき、ラージーOを使って、次のように示す。

$$ f(x)=O(g(x)) ~~ (x→a) $$

NOTE: ラージOだけじゃなく、スモールOの記法もあるが、使わないので割愛。

例) $n^4+n$は$n →∞$において$n^4$と同じくらいの規模とする考えから、次と表せる

$$ n^4+n=O(n^4)  $$

REFERENCES:

  • https://univ-study.net/order/

イプシ-ロンデルタ論法((ε, δ)-definition of limit )

実数値のみを用いて極限を議論する方法

例) $\displaystyle \lim_{x\to a}f(x)=b$をε-δ論法で書くと次に成る。

$$ \forall \varepsilon >0, \exists \delta >0 s.t. \forall x\in\mathbb{R}, 0<|x-a|<\delta \Rightarrow |f(x)-b|<\varepsilon $$

任意の正の実数$ε$に対し、ある正の実数$δ$が存在して、任意の実数$x$に対して$0<|x−a|<δ$ならば$|f(x)−b|<ε$が成り立つ

ちなみに、$\exists$はカタカナのよ(ヨ)に似ているが、existsのEを左右反転させた存在を示す記号

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%97%E3%82%B7%E3%83%AD%E3%83%B3-%E3%83%87%E3%83%AB%E3%82%BF%E8%AB%96%E6%B3%95
  • https://univ-study.net/epsilon-delta/

オイラーの公式

動径関数(radial func)

ある点 $\vec{c}$からの距離のみに基づいて値が決まる関数のこと

$$ f_\overrightarrow{c}(\overrightarrow{x})=|\overrightarrow{x}-\overrightarrow{c}|^2 $$

REFERENCES:

  • https://mathwords.net/doukeikitei

スカラー場とベクトル場

$$ V = (x, y, z) $$

REFERENCES:

  • http://www.osssme.com/doc/funto105-no10.html

ベクトル場

$$ \mathbb{V} = (V_x, V_y, V_z) $$

それぞれの成分は$(x, y, z)$の成分を持つ

ナブラ

  • ナブラは右オペランドに関数を適用できる演算子
  • ▽(ナブラ)は接ベクトル

$$ \nabla f=\left(\dfrac{\partial f}{\partial x},\dfrac{\partial f}{\partial y},\dfrac{\partial f}{\partial z}\right) $$

$∇f$ は勾配ベクトルと呼ばれ、$grad f$ と書かれることもある

勾配・発散・回転

演算意味
勾配傾き
発散内積
回転外積

REFERENCES:

  • https://physics-school.com/grad-div-rot/
  • http://www.osssme.com/doc/funto105-no240.html
  • https://mathwords.net/nabla

grad (勾配)

あるスカラー場において、ある関数fが最も大きく変化する方向(ベクトル)

$$ \mathrm{grad} f=\left(\dfrac{\partial f}{\partial x},\dfrac{\partial f}{\partial y},\dfrac{\partial f}{\partial z}\right) $$

  • ただし、f は3変数 (x,y,z) の関数とする
  • 勾配は、それぞれの変数で偏微分したものを成分に持つベクトル

例えば、$f=x+y^2+z^3$ のとき、勾配ベクトルは、 $\mathrm{grad}f = (1, 2y, 3z^2)$となる

references:

  • https://mathwords.net/graddivrot

div (発散)

$div V$ はその点の近くで、$V$ が単位体積あたりどれくらいあふれ出ているかを表す量(戻り地はスカラ)
divergence

$$ \mathrm{div} V=\dfrac{\partial V_x}{\partial x}+\dfrac{\partial V_y}{\partial y}+\dfrac{\partial V_z}{\partial z} $$

例)

1辺の長さが $\Delta x$, $\Delta y$, $\Delta z$の立方体がある。

この直方体から、x 方向にあふれ出ている量は次となる

$$ V_x(x+\Delta x,y,z)\Delta y\Delta z-V_x(x,y,z)\Delta y \Delta z\\ \fallingdotseq\dfrac{\partial V_x}{\partial x}\Delta x\Delta y\Delta z $$

ここから$\Delta x$, $\Delta y$, $\Delta z$を割ることで、単位体積あたりの流出量になる。

ナブラ演算子での表記

あるベクトル場Vとナブラに対応するベクトルのスカラ値を戻す演算なので、内積とも考えられる。

$$ \nabla\cdot V=\dfrac{\partial V_x}{\partial x}+\dfrac{\partial V_y}{\partial y}+\dfrac{\partial V_z}{\partial z} $$

REFERENCES:

  • https://mathwords.net/graddivrot

rot (回転)

単位体積あたりの「ねじを回す力」。戻り値はベクトル

$$ \mathrm{rot} V\ =\left(\dfrac{\partial V_z}{\partial y}-\dfrac{\partial V_y}{\partial z},\dfrac{\partial V_x}{\partial z}-\dfrac{\partial V_z}{\partial x},\dfrac{\partial V_y}{\partial x}-\dfrac{\partial V_x}{\partial y}\right) $$

ただし、$V=(V_x,V_y,V_z)$ はベクトル場とする。つまり、$V_x,V_y,V_z$ はそれぞれ $(x,y,z)$ の関数

EX)

$$ V=(x+y+z,x^2+y^2+z^2,x^3+y^3+z^3) $$

の時のとき、回転のx成分は、次となる。

$$ \dfrac{\partial V_z}{\partial y}-\dfrac{\partial V_y}{\partial z}=3y^2-2z $$

ナブラ演算子での表記

あるベクトル場とナブラに対応するベクトルの外積とも見れる。

$$ \nabla\times V\ =\left(\dfrac{\partial V_z}{\partial y}-\dfrac{\partial V_y}{\partial z},\dfrac{\partial V_x}{\partial z}-\dfrac{\partial V_z}{\partial x},\dfrac{\partial V_y}{\partial x}-\dfrac{\partial V_x}{\partial y}\right) $$

REFERENCES:

  • https://mathwords.net/graddivrot

ラプラシアン

関数 $f(x,y,z)$ に対して、各変数での2階微分の和のことを $\nabla^2 f$ と書きます:

$$ \nabla^2 f=\dfrac{\partial^2f}{\partial x^2}+\dfrac{\partial^2f}{\partial y^2}+\dfrac{\partial^2f}{\partial z^2} $$

https://mathwords.net/nabla

三重積

スカラー三重積

$$ \nabla\cdot(\nabla\times V) = div(rot V)=0
$$

ベクトルー三重積

$$ \nabla\times(\nabla\times V)=\nabla(\nabla\cdot V)-\nabla^2V $$

ベクトルの下の公式と似た公式

$$ \overrightarrow{a}\times(\overrightarrow{a}\times\overrightarrow{b})=(\overrightarrow{a}\cdot \overrightarrow{b})\overrightarrow{a}-(\overrightarrow{a}\cdot \overrightarrow{a})\overrightarrow{b} $$

REFERENCES:

  • https://mathwords.net/nabla

分割統治法

動的計画法

オーダー

元 (element)

集合を構成する個々の数学的対象(mathematical object)のこと

例)

集合 $M = \{1, 2, 3\}$ に対し、$1, 2, 3$ は各々Mの元になる

それぞれの元は無論、Mのサブセットになる

$$ 1 \subset M $$

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E5%85%83_(%E6%95%B0%E5%AD%A6)

開集合、閉集合

アレフ数

元 (element)

集合を構成する個々の数学的対象(mathematical object)のこと

例)

集合 $M = \{1, 2, 3\}$ に対し、$1, 2, 3$ は各々Mの元になる

それぞれの元は無論、Mのサブセットになる

$$ 1 \subset M $$

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E5%85%83_(%E6%95%B0%E5%AD%A6)

単位元 (identity element)

二項演算を備えた集合の特別な元で、ほかのどの元もその二項演算による単位元との結合の影響を受けない

例)

台集合演算単位元
実数全体 R0
実数全体 R1

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E5%8D%98%E4%BD%8D%E5%85%83

上限下限

ある集合Aに対して

記号意味英語日本語
$\max A$Aの最大値maximumマックス
$\min A$Aの最小値minimumミン
$\sup A$Aの上限supremumスープ
$\inf A$Aの下限infimumインフ

sup/infとmin/maxの違い

記号開集合閉集合
sup, inf存在する存在する
min, max存在しない存在する
  • つまり、sup, infはmin, maxを拡張した概念。
  • sup, infは開集合でも存在する

REFERENCES:

https://mathtrain.jp/supmax

微分法(differential calculus)

導関数(derived function)

いろいろな値における微分係数を集めて,それを関数とみなしたもの

$f(x) = x^2$の導関数は$f(x)^{'}=2x$

微分係数(derivative)

ある値における微分係数

$f(x) = x^2$の$x=2$の時の微分係数は$f(2)^{'}=4$

偏微分 (partial derivative)

関数$f(x,y)$を$x$で偏微分した偏導関数を、次の記号で表す。

$$ \begin{align*} f_x(x,y), \; z_x ,\; \frac{\partial f}{\partial x}(x,y), \; \frac{\partial z}{\partial x} \end{align*} $$

関数$z=f(x, y)$のxに関する偏導関数$z_x = f_x(x,y) = \frac{\partial f}{\partial x}$がyについて偏微分可能な時、$(f_x)_y = (z_x)_y=\frac{\partial}{\partial y}\left( \frac{\partial f}{\partial x} \right) = \frac{\partial}{\partial y}\left( \frac{\partial z}{\partial x} \right)$を次のように表す(2次の偏導関数の記号)。

$$ \begin{align*} f_{xy}(x,y) ,\; z_{xy} ,\; \frac{\partial^2 f}{\partial y \partial x}(x,y) ,\; \frac{\partial^2 z}{\partial y \partial x} \end{align*} $$

また、$f_x$が更に$x$で偏微分可能なとき、$(f_x)x$を次のように表す。

$$ \begin{align*} f_{xx}(x,y) ,\; z_{xx} ,\; \frac{\partial^2 f}{\partial^2 x}(x,y) ,\; \frac{\partial^2 z}{\partial^2 x} \end{align*} $$

全微分(total derivative)

2変数関数 $z=f(x,y)$に対し、各変数方向への偏微分と無限小の積をすべての変数について加えたものを z の全微分という

2変数関数 $z=f(x,y)$ の全微分は

$$ df=\frac{∂f}{∂x}dx+\frac{∂f}{∂y}dy $$

この場合の$\frac{∂f}{∂x},\frac{∂f}{∂y}$の偏微分はそれぞれの傾きを示している。つまり、$dx,dy$はそれぞれの$x$方向、$y$方向の非常に小さい長さを示している。
すなわち、$df$は全体の傾きを示している。

例) $z=x^3y^2$の全微分

$$ \frac{∂z}{∂x}=3x^2y^2,\frac{∂z}{∂y}=2x^3 y \\ \therefore dz=3x^2 y^2 dx +2x^3 ydy $$

微分可能性 (differentiability)

関数$f(x, y)$が点$(a, b)$においてxに関して微分可能であるとは、$y=b$(bは定数)において得られるxの関数$f(x, b)$が$x=a$(aは変数)において微分可能であることである。

ある三次元グラフ

yを定数-4で固定すると、$y=-4$の時のzに関する二次元のグラフの方程式を得る。

yの定数を定数bで一般化すると、任意のzについての二次元のグラフの方程式を得る。

REFERENCES:

  • https://sci-pursuit.com/math/partial-differential.html
  • https://univ-study.net/total-derivative/

偏微分

方向微分

全微分

積分法 (integral calculus)

積分 (integral )

1次関数$y=f(x)$のある区間$[a,b]$上の面積を求める場合、次のように示す。

$$ \int_a^bf(x)dx $$

重積分 (multiple integral)

2変数関数 $z=f(x,y)$の積分(平面の領域D上の体積)は次のように示す。

$$ \iint_D f(x,y)dxdy $$

なお、積分区間が長方形領域(それぞれの上端,下端が定数)で,被積分関数が一変数関数の積に分解できるとき,以下のように一変数の積分に分解できる。

$$ \displaystyle\int_{y_0}^{y_1}\int_{x_0}^{x_1}f(x)g(y)dxdy=\displaystyle\int_{x_0}^{x_1}f(x)dx\int_{y_0}^{y_1}g(y)dy $$

逐次積分/累次積分/反復積分 (iterated integral)

繰り返し積分を行う積分

$$ \int( \int f(x,y))dx $$

例)

$\int_0^1(\int_y^1 4xy dx)dy$の積分。

  • まず、$\int_y^1 4xydx$を積分する
  • $\int_y^1 4xydx = [2x^2 y]_y^1 = 2y-2y^3$
  • よって、$\int_0^1 (2y-2y^3)dy = [y^2 – \frac{1}{2} y^4 ]_0^1 =1-\frac{1}{2} = \frac{1}{2}$

References:

  • http://w3e.kanazawa-it.ac.jp/math/category/bibun/henkan-tex.cgi?target=/math/category/bibun/bibunkeisuu.html
  • https://univ-study.net/ruiji-sekibun/
  • https://mathtrain.jp/jusekibun

積分

数値微分と解析微分

座標

ベクトル空間 V の基底 B が与えられているとき

  • $v∈V$ に対し, 1次結合で一意的に書ける(係数が一意に決まる)
  • 係数を成分とする数ベクトルが一意に定まる.

$$ B = [e_1, e_2...] $$

色々な座標

座標英語
直交座標(デカルト座標)rectangular coordinate
斜交座標Oblique coordinates
双極座標Bipolar coordinates
極座標polar coordinates
画像座標image coordinates
ワールド座標World coordinates

REFERENCES:

  • http://www.las.osakafu-u.ac.jp/~yositomi/LA2-Slide2017/LA2_6_3_01.pdf

基底

REFERENCES:

  • http://www.osssme.com/doc/funto105-no240.html

ベクトル

  • 一言でいうと、向きと大きさの量を持つもの有向線分(矢印)
  • 大きさしか持たないのが、スカラ

数ベクトル

REFERENCES:

  • http://www.osssme.com/doc/funto105-no240.html

位置ベクトル

位置ベクトルは座標を一般化した概念 座標は位置ベクトルの特殊な場合

内積 (dot product)と外積(cross product)

戻り値

用語意味
内積2本のベクトルに対してスカラーを対応させる演算
外積2本のベクトルに対してベクトルを対応させる演算

幾何学的意味

用語意味
内積$|\overrightarrow{a}||\overrightarrow{b}|\cos\theta$の大きさを持つスカラ値
外積長さが$|\overrightarrow{a}||\overrightarrow{b}|\sin\theta$で、$\vec{a}$と$\vec{b}$に垂直なベクトルのこと
  • ただし、$\theta$はベクトルaとbのナス角
  • cosは横/斜めなので、$|\overrightarrow{a}||\cos\theta$ は$|\overrightarrow{b}|$方向の正射影のベクトルを意味する

代数的意味

用語意味
内積$\vec{\ a\ }\cdot\vec{\ b\ }=a_1b_1+a_2b_2$のスカラ値
外積$\vec{a} \times \vec{b} = (a_yb_z-a_zb_y,a_zb_x-a_xb_z,a_xb_y-a_yb_x)$ という成分で表されるベクトル

代数的な大きさの意味

用語意味
内積$\vec{a}$の正射影と$\vec{b}$の積の大きさ
外積$\vec{a}$と$\vec{b}$のなす平行四辺形の積の長さを持つベクトル

記号的な違い

用語記号1記号2
内積$\langle \textbf{a}, \textbf{b} \rangle$$\vec{a} \cdot \vec{b}$
外積$[\textbf{a}, \textbf{b}]$$\vec{a} \times \vec{b}$

三角比

三角関数0度90度180度
$sin \theta$010
$cos \theta$10-1

REFERENCES:

  • https://mathtrain.jp/gaiseki

行列の積

演算日本語英語
$AB$行列の積matrix product / Matrix multiplication
$\mathbf{a} \cdot \mathbf{b}$内積, スカラー積(ドット積)dot product, inner product
$\mathbf{a} \times \mathbf{b}$外積, ベクトル積(クロス積)cross product
$\mathbf{a} \otimes \mathbf{b}$直積, テンソル積outer product
$\mathbf{a} \wedge \mathbf{b}$楔積, ウェッジ積wedge product
$\mathbf{a} \otimes \mathbf{b}$クロネッカー積kronecker product
$\mathbf{a} \odot \mathbf{b}$要素ごとの積、アダマール積/シューア積Hadamard product/Schur product / element-wise product
$\mathbf{a} \cdot (\mathbf{b} \times \mathbf{c})$スカラー三重積scalar triple product

NOTE:

  • クロネッカー積と直積の演算子は同じ
  • 外積≠outer productなので注意!
  • 行列の積
    • 行列の積は結果の対応する要素の内積
      • 左のオペランドの行と右のオペランドの列の要素の積の総和をとるもの
    • numpy.dotでも引数が行列だと行列の積になる

内積

$$ inner\ product:\ {\bf a}\cdot {\bf b}\\ \hspace{50px}{\bf a}\cdot {\bf b}=\displaystyle \sum_{i=1}^{n}a_i b_i=c\\ $$

外積

$$ cross\ product:{\bf a}\times {\bf b}\\ $$ $$ \hspace{50px}{\bf a}\times {\bf b} =\normalsize{ \left(\begin{array}\\ a_1\\ a_2\\ a_3\\ \end{array}\right)} \times \normalsize{\left(\begin{array}\\ b_1\\ b_2\\ b_3\\ \end{array}\right)} =\normalsize{\left(\begin{array}\\ a_2 b_3 -a_3 b_2\\ a_3 b_1 -a_1 b_3\\ a_1 b_2 -a_2 b_1\\ \end{array}\right)}=\large {\bf c}\\ $$

テンソル積

$$ {\left(\begin{matrix}a\\ b\\ c\end{matrix}\right)\otimes\left(\begin{matrix}d\\ e\\ f\end{matrix}\right) =\left(\begin{matrix}a\otimes\left(\begin{matrix}d\\ e\\ f\end{matrix}\right)\\ b\otimes\left(\begin{matrix}d\\ e\\ f\end{matrix}\right)\\ c\otimes\left(\begin{matrix}d\\ e\\ f\end{matrix}\right)\end{matrix}\right) =\left(\begin{matrix}ad&ae&af\\ bd&be&bf\\ cd&ce&cf\end{matrix}\right) } $$

テンソル積を使わない場合

$$ {\begin{align} \left(\begin{matrix}a\\ b\\ c\end{matrix}\right)\left(\begin{matrix}d&e&f\end{matrix}\right) =\left(\begin{matrix}a\left(\begin{matrix}d&e&f\end{matrix}\right)\\ b\left(\begin{matrix}d&e&f\end{matrix}\right)\\ c\left(\begin{matrix}d&e&f\end{matrix}\right)\end{matrix}\right) &=\left(\begin{matrix}ad&ae&af\\ bd&be&bf\\ cd&ce&cf\end{matrix}\right) \end{align} } $$

※右オペランドは横行列

ウェッジ積

$$ \vec{a}\wedge\vec{b}:=\vec{a}\otimes\vec{b}-\vec{b}\otimes\vec{a} $$

つまりは、オペランドを反転した2つのテンソル積の差

クロネッカー積

$A$は$m \times n$の行列で、$A$の$ij$成分を $Aij$とすると、

$$ A\otimes B=\begin{pmatrix} A_{11}B&A_{12}B&\cdots&A_{1n}B\\ A_{21}B&A_{22}B&\cdots&A_{2n}B\\ \vdots&\vdots&\ddots&\vdots\\ A_{m1}B&A_{m2}B&\cdots&A_{mn}B \end{pmatrix} $$

例)

$$ A=\begin{pmatrix}1&2\\ 3&4\end{pmatrix} , ~~ B=\begin{pmatrix}5&6\end{pmatrix} \\ A\otimes B=\begin{pmatrix}5&6&10&12\\ 15&18&20&24\end{pmatrix} $$

アダマール積

$$ \left({\begin{array}{cc} a_{11}&a_{12}\\ a_{21}&a_{22}\\ a_{31}&a_{32}\\ \end{array}}\right) \odot \left({\begin{array}{cc} b_{11}&b_{12}\\ b_{21}&b_{22}\\ b_{31}&b_{32} \end{array}}\right) = \left({\begin{array}{cc} a_{11},b_{11}&a_{12},b_{12}\\ a _{21},b _{21}&a _{22},b _{22}\\ a _{31},b _{31}&a _{32},b _{32} \end{array}}\right) $$

REFERENCES:

  • https://www.slideshare.net/SeiichiUchida/ss-71479583
  • https://keisan.casio.jp/exec/system/1504595153
  • https://mathwords.net/kuronekaseki
  • https://omedstu.jimdofree.com/2018/04/23/%E3%82%A2%E3%83%80%E3%83%9E%E3%83%BC%E3%83%AB%E6%BC%94%E7%AE%97%E5%AD%90-hadamard-operation/
  • https://ja.wikipedia.org/wiki/%E4%B8%89%E9%87%8D%E7%A9%8D_(%E3%83%99%E3%82%AF%E3%83%88%E3%83%AB%E8%A7%A3%E6%9E%90)#%E3%82%B9%E3%82%AB%E3%83%A9%E3%83%BC%E4%B8%89%E9%87%8D%E7%A9%8D
  • https://mathtrain.jp/gaiseki

コサイン類似度(Cosine similarity)

二つのベクトル $\vec{a}=(a_1,a_2,⋯,a_n)$ と $\vec{b}=(b_1,b_2,⋯,b_n)$ に対して、次をコサイン類似度という

$$ \dfrac{a_1b_1+\cdots +a_nb_n}{\sqrt{a_1^2+\cdots +a_n^2}\sqrt{b_1^2+\cdots +b_n^2}} $$

  • コサイン類似度=2つのベクトルのなす角のコサイン
  • 値域は1~-1
  • 直角の場合は0

分子は内積、分母はベクトルの絶対値の積なので、2つのベクトルの$cos \theta$を求めることに等しい

$$ \dfrac{a_1b_1+\cdots +a_nb_n}{\sqrt{a_1^2+\cdots +a_n^2}\sqrt{b_1^2+\cdots +b_n^2}} = \frac{\langle \vec{a}, \vec{b} \rangle}{|\vec{a}||\vec{b}|} = \frac{|\vec{a}||\vec{b}| cos \theta }{|\vec{a}||\vec{b}|} = cos \theta $$

REFERENCES:

  • https://mathtrain.jp/cosdistance

ヤコビアン (jacobian)

ヤコビ行列(jacobi matrix)

$\frac{∂y_i}{∂x_j}$を $ij$ 成分とする m×n 行列 J をヤコビ行列と言う。 例えば $i=j=2$のとき,ヤコビ行列は次になる。

$$ J=\begin{pmatrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}\\ \frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}\end{pmatrix} $$

  • 条件はベクトル$\vec{x}$と$\vec{y}$が定まること
  • $y_i$番目は$x_i$番目で偏微分可能

ヤコビアン(jacobian)

ヤコビ行列の行列式をヤコビ行列式,またはヤコビアンと言う。ヤコビアンは変換の「拡大率」を表す重要な量です。

二次元極座標

  • 二次元極座標(r,θ) から直交座標(x,y) への変数変換を考える。
  • 二変数関数二つ組なのでヤコビ行列のサイズは2×2。
  • 変換式は $x=r\cosθ,y=r\sinθ$で、変換式をそれぞれ偏微分するとヤコビ行列が求まる

$$ \begin{pmatrix} \frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\ \frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta}\end{pmatrix} $$ $$ =\begin{pmatrix} \cos\theta&-r\sin\theta\\ \sin\theta&r\cos\theta\end{pmatrix} $$

ヤコビアンは、$\cosθ(r\cosθ)−\sinθ(−r\sinθ) = r$

REFERENCES:

  • https://mathtrain.jp/jacobian

ノルム (norm)

長さの概念を一般化したもの

ノルム
ユークリッドノルム(絶対値)$|x|$
ノルム$||x||$

※ 絶対値にスカラを入れたら普通の絶対値、ベクトルを入れたらピタゴラスの定理を用いた、ベクトルの長さ

ノルムとは

$n$次元ベクトル$\vec{x}=(x_1,x_2,⋯,x_n)$ および $1≤p<∞$ なる$p$に対して $\vec{x}$ の $L^p$ ノルムと言い,$||\vec{x}||_p$と書く。

$$ \sqrt[p]{|x_1|^p+|x_2|^p+\cdots +|x_n|^p} = (|\vec{x}|^{p})^{\frac{1}{p}} = ||\vec{x}||_{p} $$

ノルムは2本パイプで囲うので注意

ノルムの呼び名

ノルム
L1(マンハッタン距離)$|x_1|+|x_2|+\cdots +|x_n|$
L2(ユークリッド距離距離)$\sqrt{x_1^2+x_2^2+\cdots +x_n^2}$

単位円

二次元ベクトルに対してノルムが1になる時の単位円を図示すると、 $$ ||\overrightarrow{x}||_p=1 $$

軸に張り付いていない場合は、pが大きくなるほど、ノルムが小さくなる

$$ \vec{x} = \{2, 2\} \\ ||\vec{x}||_1 = 2 + 2 = 4 \\ ||\vec{x}||_2 = \sqrt{2^2 + 2^2} = \sqrt{8} \sim 2.828 \\ ||\vec{x}||_3 = {2^3 + 2^3}^{1/3} = {16}^{1/3} \sim 2.519 \\ $$

軸に張り付いている場合は、ノルムは値になる

$$ \vec{x_2} = \{3, 0\} \\ ||\vec{x_2}||_1 = 3 + 0 = 3 \\ ||\vec{x_2}||_2 = \sqrt{3^2 + 0^2} = \sqrt{9} = 3 \\ ||\vec{x_3}||_2 = (3^3 + 0^3)^{1/3} = 27^{1/3} = 3 \\ $$

ユークリッド距離=原点を平均とする二乗和平方根

$$ ||\vec{x}||_2 = \sqrt{(x_1 - 0)^2+(x_2 - 0)^2+\cdots +(x_n - 0)^2} $$

分散(二乗平均平方根)が平均偏差(絶対偏差)と比べて優れている点は、分散はベクトルの距離を示しているから

References:

  • https://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%AB%E3%83%A0
  • https://toukeigaku-jouhou.info/2018/10/15/mean-deviation/

写像 (mapping)

関数を集合に対応させたもの

固有値

固有ベクトル

定義域(domain)と値域(range)

関数の入力と出力を集合に適用したもの

エルミート行列 (hermitian matrix)

ユニタリ行列(unitary matrix)

REFERENCES:

  • https://python.atelierkobato.com/unitary/

vec作用素(vec operator)

$$ { vec(A) = \left( \begin{array}{c} a_{1} \\ a_{2} \\ \vdots \\
a_{n} \end{array} \right) } $$

例)

$$ { vec\left( \begin{array}{ccc} 1 & 3 & 2 \\ 0 & 7 & 4 \end{array} \right) = \left( \begin{array}{c} 1 \\ 0 \\ 3 \\ 7 \\ 2 \\ 4 \end{array} \right) } $$

REFERENCES:

  • http://yamaguchiyuto.hatenablog.com/entry/2016/11/16/100000

多様体

局所的にはユークリッド空間と見なせるような図形や空間(位相空間)のこと

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E5%A4%9A%E6%A7%98%E4%BD%93

統計学について

統計とは何か?

  • 生データから分布の特徴を抽出すること
  • データから意味のある情報を抽出すること=縮約

なぜ統計が必要か?

  • ⇒ 生データだとわからないから
  • 例えば身長のデータはみんな同じではなく、測定によってまちまちの数値を取る。
  • つまり、不確実性が背景に働いているので、測定結果にばらつき(分布)がある。
  • その分布の特性を知りたいから

  • コインを10回投げた時の表の数
  • その観測結果は不確実なので、一様にX回とは表現できない
  • 理想的には5回、でも観測したら現実的にはランダムということ
  • そこで試行回数をN回やったときの結果のデータを元に、
  • 現実を評価(記述統計)したり、理想を推定(推測統計)したりする

縮約の手法

  1. グラフ化して特徴を捉える
  2. 特徴のある数字を出す(=統計量)

Terms

用語意味
統計(Statistics)ある事象を数量データで表現したもの
不確実性(Uncertainty)ある事象が確実でないこと
一様(Uniform)均一なこと
ばらつき(Dispersion)測定の不確実性(uncertainty of measurement)によって生まれるもの
分布(Distribution)ある事象がどのように出現しているかを示すもの
縮約(Contraction)規模を小さくして簡約なものにすること

その他

  • Statisticcs is the grammar of science.
  • Statisticsの語源は国家のstateから

REFERENCE:

  • https://kotobank.jp/word/%E7%B5%B1%E8%A8%88-580054
  • 完全独習 統計学入門
  • https://www.aandt.co.jp/jpn/qc/basic/dispersion.htm
  • https://en.wikipedia.org/wiki/Data_reduction
  • https://ja.wikipedia.org/wiki/%E4%B8%8D%E7%A2%BA%E5%AE%9F%E6%80%A7
  • https://kotobank.jp/word/%E5%88%86%E5%B8%83-128647
  • https://en.wikipedia.org/wiki/Measurement_uncertainty

統計学の種類

種類目的
記述統計学 (Descriptive statistics)あるデータに対して、そのデータの特徴をよりわかりやすく表現する (標本=母集団)
推計統計学 (Inferential statistics)限られた標本から母集団全体の特徴を推測すること
ベイズ統計学 (Bayesian statistics)主観確率を扱って特徴を推測する

統計学別の例

的あてゲームで的を倒せる確率

種類答え
記述統計学全てやらないとわからない
推計統計学2, 3回やれば予測できるでしょ?
ベイズ統計学条件によって変わる(プロが撃てば確率は上がるから)

古典統計学 vs. ベイズ統計学

種類前提
古典統計学(頻度主義統計)頻度主義 (Frequentism)、決定論、客観確率
ベイズ統計学ベイズ主義 (Bayesianism)、確率論、主観確率

REFERENCES

  • https://to-kei.net/basic/inductive-statistics/
  • http://www.chem.kyushu-u.ac.jp/~katayama/dl/%E3%81%93%E3%82%8C%E3%81%AA%E3%82%89%E3%82%8F%E3%81%8B%E3%82%8B%E7%B5%B1%E8%A8%88%E5%AD%A6%EF%BC%81.pdf
  • http://ill-identified.hatenablog.com/entry/2017/03/17/025625

データとは

データとは?

  • facts and statistics collected together for reference or analysis.
  • In general, data is any set of characters that is gathered and translated for some purpose, usually analysis.

$$ \text{Character} \in \text{Data} $$

データとデータセット

用語意味
データ(data, datum)$x = \forall$
データセット(dataset)$X = \{x_1, x_2, ... , x_n \}$

DIKW Pyramid

  • The DIKW pyramid, also known variously as the DIKW hierarchy, wisdom hierarchy, knowledge hierarchy, information hierarchy, and the data pyramid

REFERENCES:

  • https://en.wikipedia.org/wiki/DIKW_pyramid
  • https://www.computerhope.com/jargon/d/data.htm

データの分類

データの分類 (Statistical data type)

データの種類定義具体例
質的直接数値で測定できない(特徴によって分類する)性別、学歴、天気、居住地
量的直接数値で測定できる(数えたり、測ったりして数値で表現する)長さ、重さ、体積、金額、温度、時間

REFERENCE:

  • https://www.youtube.com/watch?v=EWo1VAfHdcc&list=PLdyM_iZEFdctR0ZURcREfe-XmDceMXID8&index=2
  • http://www.ner.takushoku-u.ac.jp/masano/class_material/waseda/keiryo/5_infer_stat.html
  • https://learn.g2.com/qualitative-vs-quantitative-data

データの尺度

尺度水準 (scale of measurement, Level of measurement)

尺度(scale)同一比較($=$)大小比較($><$)差($+-$)比($\times\div$)
名義尺度 (Nominal scale)電話番号o×××
順序尺度 (Ordinal scale)震度oo××
間隔尺度 (Interval scale)温度ooo×
比率尺度 (Ratio scale)長さoooo

数学的水準

比率データ(比尺度データ) > 間隔データ > 順位データ > 名義データ

できる演算

演算できること
同一比較($=$)各ケースの数(Number of cases), 計数(count), 頻度(frequency), 最頻値(mode)、連動計数(Contingency correlation)
大小比較($><$)中央値(Median), パーセンタイル(Percentiles)
差($+-$)平均値(mean), 標準偏差(S.D.), 順位相関係数(Rank-order correlation), 積率相関係数(Product-moment correlation)
比($\times\div$)変動係数(CV)

カテゴリカルデータ (categorical data)

  • 名義尺度と順序尺度の尺度水準をもつデータのこと

リッカート尺度(Likert scale)

  • 5段階評価のように質問に対する賛否の程度を選択肢から選んで回答するアンケートの尺度

ダミー変数 (dummy variable)

  • 数字ではないデータを数字に変換する手法のこと
  • 0 と 1 から成る変数のこと

REFERENCES:

  • 入門統計学
  • https://bellcurve.jp/statistics/blog/14248.html
  • https://en.wikipedia.org/wiki/Statistical_data_type
  • https://note.nekolabs.net/entry/2017/05/14/135700
  • http://www.geisya.or.jp/~mwm48961/statistics/scale1.htm
  • http://daas.la.coocan.jp/GLM/hosoku_1_categolical.htm
  • https://xica.net/magellan/marketing-idea/stats/abou-dummy-variable/
  • https://mathwords.net/syakudo

次元

次元の意味

次元意味
1次元データ(1-dim data)1つの属性をもつデータ
2次元データ(1-dim data)2つの属性をもつデータ
多次元データ(multi-dimensional data)複数の属性を持つデータ

テンソル

用語次元
スカラ(scala)0次元
ベクトル(vector)1次元
行列(matrix)2次元
テンソル(tensor)N次元

ISQの基本量とその次元

基本量次元の記号SI基本単位
長さLメートル(m)
質量Mキログラム(kg)
時間T秒(s)
電流Iアンペア(A)
熱力学温度Θケルビン(K)
物質量Nモル(mol)
光度Jカンデラ(cd)

次元と単位

次元は単位の組み合わせを表現したもの

$$ A = 10 cm \\ \dim A = L \\ B = 10 m^2 \\ \dim B = L $$

references

  • https://en.wikipedia.org/wiki/OLAP_cube
  • https://www.otsuka-shokai.co.jp/products/dwh/solution/multidimensional-olap/what-is-multidimensional-olap/
  • https://physnotes.jp/foundations/dimensions/
  • https://ja.wikipedia.org/wiki/%E9%87%8F%E3%81%AE%E6%AC%A1%E5%85%83

データの単位

単位(unit)とは

  • 単位(たんい、英: unit)とは、量を数値で表すための基準となる、約束された一定量のことである。
  • 数学において、単位とは、「恒等の作用をするもの」(英: identity)を意味する。積では、数の1がこれに当たる。

2つの単位

単位意味
単位(unit)数の基準としての1単位ベクトル(unit vector)
単位(identity)恒等(identity)の作用をするもの単位行列(identity matrix)、恒等関数(identity function)

恒等性 vs. 冪等性

用語意味対象
恒等性(identity)ある変数にどんな値を入れても正しいこと(恒等的に正しい)代入
冪等性(idempotence)ある操作を何回行っても結果が同じであること演算

例)

方程式 vs. 恒等式

x + 1 = 0 (方程式)
x + 1 ≡ 1 + x (恒等式) // 恒等式は定義としても使われる

無次元量(dimensionless quantity)

  • 無変量(無名数)とも
  • 単位のない量のこと
  • 例) パーセンテージ

reference:

  • https://ja.wikipedia.org/wiki/%E5%8D%98%E4%BD%8D
  • https://ja.wikipedia.org/wiki/%E7%84%A1%E6%AC%A1%E5%85%83%E9%87%8F
  • https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1220455742
  • https://ja.wikipedia.org/wiki/%E7%AD%89%E5%8F%B7

データの型

統計とプログラミングのデータの型

StatisticsProgramming
real-valued (interval scale)floating-point
real-valued (ratio scale)floating-point
count data (usually non-negative)integer
binary dataBoolean
categorical dataenumerated type
random vectorlist or array
random matrixtwo-dimensional array
random treetree

ストックとフローデータ

用語意味
ストック(stock)ある一時点において貯蔵されている量
フロー(flow)一定期間内に流れた量

複式簿記

用語意味
貸借対照表(Balance sheet; BS)Stock
損益計算書(Profit and loss statement; P&L)Flow

REFERENCES:

  • https://en.wikipedia.org/wiki/Data_type
  • https://ja.wikipedia.org/wiki/%E3%83%95%E3%83%AD%E3%83%BC%E3%81%A8%E3%82%B9%E3%83%88%E3%83%83%E3%82%AF

集約データ

元データと集約データ

名前rowscolumnsfields
元データ(raw data)データ番号属性観測値、実測値
集約データ(aggregate data)属性三次元目の属性アグリゲーション、統計量

例) 元データ

#nameagegender
1aaa15male
2bbb14female

例) 集約データ

attr199219931994
nameaaabbbccc
age131415
gendermalefemalemale

例) データ数に対するデータ

集約データの種類

例) A県の平成21年~25年のデータ(図1)

用語
時系列データA県の平成21年~25年の人口のデータ
横断面データ(クロスセクション・データ)平成22年1月時点のA県の世帯数、人口、事業所数のデータ
パネルデータ一般的にパネルデータとは、同一の標本について、複数の項目を継続的に調べて記録したデータ
コーホートデータ生まれた年ごとに記録し、経過時間に沿って集計したデータ

コホート(cohort)

  • 共通した因子を持ち、観察対象となる集団のこと
  • 例) 一定の時期に人生における重大な出来事(出生、結婚、就職など)を共通に体験した人々の集合
  • コーホートで母集団を指すことも

メッシュデータ

  • 地域を正方形に区切った区画(メッシュ)単位に、整備したデータのこと

REFERENCES:

  • https://www.stat.go.jp/koukou/howto/process/proc4_1_2.html
  • https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%9B%E3%83%BC%E3%83%88
  • https://www.mapmarketing.co.jp/glossary/6/36.html
  • https://en.wikipedia.org/wiki/Aggregate_data

中心傾向(central tendency)もしくは代表値(average)

  • Central tendency か measure of central tendency
  • 意味はcentral or typical value for a probability distribution
  • center or location of the distributionとも呼ばれるかもしれない
  • 口語体だとaverages
  • なので、中心傾向(central tendency)と呼ぶ

中心傾向

  • データが次の時、

$$ X = \{1, 2, 4, 3, 2\}, n = 5 \\ sort(X) = \{1, 2, 2, 3, 4\} $$

代表値
平均(arithmetic mean)$\bar{X} = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{12}{5} = 2.4$
中央値(median)$median = 2$
最頻値(mode)$mode = \{2\}$
ミッド・レンジ(mid-range)$\frac{max(X) + min(X)}{2} = \frac{1+4}{2} = 2.5$
四分位点(qurtile)Q_1 = 2, Q_2 = 2, Q_3 = 3$
パーセンタイル(percentile)0.5p = 2

パーセントとパーセンタイルの違い

用語意味
パーセント(percentage)全体に対する割合
パーセンタイル(percentile)全体に対する順位(小さい順で)

REFERENCES:

  • https://en.wikipedia.org/wiki/Central_tendency
  • https://en.wikipedia.org/wiki/Average#Statistical_location
  • https://www.youtube.com/watch?v=N3rngXkpn9U
  • http://www.bunkyo.ac.jp/~hotta/lab/courses/2012/2012dist/12dist_1-1.pdf

平均の種類

  • 調和平均 ≤ 幾何平均 ≤ 対数平均 ≤ 算術平均
種類意味
算術平均(相加平均)足して数で割る
幾何平均(相乗平均)掛けて数で割る(外れ値に弱い)
調和平均逆数の平均
加重平均重み付け平均
対数平均TODO
移動平均トレンドが読みやすい
トリム平均 (調整平均)上位下位 5 パーセントを除いて残りの90%の平均を求める方法

平均 vs. 期待値

  • 確率分布をもたない変数群(集合) ⇒ 平均
  • 確率分布をもつ変数(確率変数) ⇒ 期待値

REFERENCES:

  • https://bellcurve.jp/statistics/glossary/1018.html

ヒストグラム(Histogram)とは?

  • 度数分布表を棒グラフにしたもの
  • X軸は度数か相対度数
  • Y軸は階級値

ヒストグラムの例

分布表

  • 確率変数と生起確率の表

度数分布表の作り方

  1. 最大値と最小値を出す
  2. 階級分けする
    • 階級数の目安はデータ数の平方根+1
  3. 階級値を決める
    • 一般的には各階級の中央値
  4. 度数を出す
  5. 相対度数を出す
  6. 累積相対度数を出す

Terms

用語意味
ヒストグラム/柱状グラフ(Histogram)X軸が度数(Or 相対度数)、Y軸は階級値のグラフ
度数分布表(Frequency Distribution Table)階級ごとのテーブル
度数分布(Frequency Distribution)統計において標本として得たある変量の値のリスト
データ数(Data Count)データの数
階級(Class)最大値から最小値までを5~8区分に分けたもの
階級値(number of classes)階級の個数
階級値(Class Value)各階級を代表する値、中央値を使うことが多い
度数(Frequency)各階級に入るデータ数
相対度数(Relative frequency)度数/データ数
累積度数(cumulative frequency)現階級までの度数の和
累積相対度数(cumulative relative frequency)現階級までの相対度数の和

ヒストグラムのスペクトルの分類

用語意味
単峰型(unimodal)峰が1つ
双峰型(bimodal)峰が2つ

層別 (Stratified)

  • データを分割すること
  • 層別解析: データの中にいくつかの異なる性質の集団が含まれている場合にそれらを分割して解析すること

スタージェスの公式(Sturges' rule)

  • 度数分布表やヒストグラムを作成するときに階級数を決定する目安を得られる公式

$$ k = \log_2N+1 $$

ローレンツ曲線

  • 度数分布表から偏りを表すための曲線
  • 2つの相対度数が必要。
    1. 各階級の度数の累積相対度数
    • 例) 年収200 ~ 300万円の度数: 25
    1. 各階級に属する値(合計)の累積相対度数
    • 例) 年収200 ~ 300万円に属する値の度数: 3600万円
  • ローレンツ曲線のグラフ
    • X軸: 度数の累積相対度数
    • Y軸: 値の累積相対度数
    • 変域は0~1

均等分配線(line of equality)

  • ローレンツ曲線における対角線の直線のこと

ジニ係数

  • 均等分配線とローレンツ曲線が囲む領域の面積の2倍
  • ジニ係数が大きい場合は階級感の格差が大きく、小さい場合は格差が小さいことを示す

ヒストグラム以外

  • 幹葉プロット: 野球打率とか
  • 箱ひげ図: 株価推移とか

REFERENCE:

  • 完全独習 統計学入門
  • 統計学入門
  • http://office-kohno.com/nabesima.p/ksgkaisekihyou.html
  • https://bellcurve.jp/statistics/glossary/7445.html
  • https://bellcurve.jp/statistics/course/1664.html
  • https://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%8B%E4%BF%82%E6%95%B0
  • https://www.stat.go.jp/koukou/howto/process/graph/graph12.html

データの変数

データと変数

用語意味
データ
変数名前付き値

データと変数の属性

データ変数
質的(定性)データ(Qualitative data)離散型(discrete variable)
量的(定量)データ(Quantitative data)連続型(continuous variable)

量と値の違い

名前意味
計って決まるかさ。確率分布の取り得る値。推定量 (estimator)
測って得たかさ。推定値 (estimate)

変数 vs. 変量

「統計集団をなす個体が“担っている”数量を抽象化して変量( variate )と呼ぶことが多い.数学の変数( variable )の概念に対応するが、個体に応じて変化し,物理的,経済的な意味をもつ量であるとの意識が強い.データは変量がとる値( value )である.しかし,変量とデータは変数と変数値のように混同されがちであり,うるさく区別しないほうが便利である.変量と変数も混同されがちで,本辞典内でも区別しない場合が多い」

統計学辞典 「1.2.1 データと変量」より抜粋

因子(factor) vs. 共変量(covariable)

統計解析の手法は、目的変数や説明変数の尺度に対応して異なります。分散分析では、説明変数に質的変数を用いるとき因子(factor)と呼び、量的変数を用いるときには共変量(covariable)と呼びます。、共分散分析の「共」は共変量に由来します。

REFERENCES:

  • https://www.youtube.com/watch?v=EWo1VAfHdcc&list=PLdyM_iZEFdctR0ZURcREfe-XmDceMXID8&index=2
  • http://www.ner.takushoku-u.ac.jp/masano/class_material/waseda/keiryo/5_infer_stat.html
  • https://learn.g2.com/qualitative-vs-quantitative-data
  • https://bellcurve.jp/statistics/blog/14248.html
  • https://bellcurve.jp/statistics/blog/14248.html

離散変数と連続変数

離散変数(Discrete variables)

  • 測定尺度が永遠に細かくなれない
  • 性別、子供の数、サイコロの目
  • 年収: 1000円

連続変数(continuous variables)

  • 測定尺度が永遠に細かくなれる
  • 身長: 165.000000000....cm
  • 年齢: 31.42333 歳

references:

  • google
  • https://www.youtube.com/watch?v=PXWEdTfePTU&list=PLdyM_iZEFdctR0ZURcREfe-XmDceMXID8&index=2&t=1s

集合(set)

変数

$$ x = 10 $$

集合

$$ X = \{1, 2, 3\} $$

有限集合(finite set)と無限集合(infinite set)

変数集合
連続型変数無限集合
離散型変数有限集合

データと変数と変域と尺度の関係

データ変数変域集合尺度
質的離散型有限名義尺度(Nominal scale)
質的離散型有限順序尺度(Ordinal scale)
量的連続型無限間隔尺度(Interval scale)
量的連続型無限比尺度(Ratio scale)
  • ※ 定義域と値域を合わせて変域という

REFERENCES:

  • https://mathwords.net/teigiiki
  • https://www.youtube.com/watch?v=U5XINbpp1G8&list=PLdyM_iZEFdctR0ZURcREfe-XmDceMXID8&index=5

相関と回帰

用語様子
相関(correlation)xとyを対等な様子
回帰(regression)xからyが決定される様子

散布図と分割表

用語利用
散布図(scattergram)量的変数
分割表(contingency table)離散変数

総関係数/積率相関係数(product-moment correlation coefficient)

  • 量的変数間の直線的関連の程度を示す係数
  • 分子は共分散、分母はxとyの標準偏差の積

$$ r_{xy} = \frac{S_{xy}}{SxSy} $$

共分散 (variance-covariance matrix)

  • xの偏差とyの偏差の積の平均値

$$ C_{xy} = S_{xy} = \sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) \times \frac{1}{n} \
$$

分散(Variance)

$$ S^2_x = \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2 }{n} \\ S^2_y = \frac{ \sum_{i=1}^{n}(y_i - \bar{x})^2 }{n} \\ $$

S.D.

$$ S_x = \sqrt{ \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2 }{n} } \\ S_y = \sqrt { \frac{ \sum_{i=1}^{n}(y_i - \bar{x})^2 }{n} } \\ $$

相関関係と因果関係

関係意味
相関関係(correlation)因果関係たための必要条件
因果関係(causation)p ⇒ q

相関関係と相関関係の関係

$$ 相関関係 \subset 因果関係 $$

見かけ上の関係/見せかけの相関/擬似相関(Spurious relationship)

  • 上の例で言えば、sunburnとice creamのデータは相関関係にあるが、見せかけの関係。
  • 背景にある天候が影響しているから。

偏相関係数(partial correlation coefficient)

  • 2つの変数の相関が第3の変数によって高められる、または低められる場合に、2変数から第3の変数の影響を取り除いて求めた相関係数
  • 見せかけの相関の判別に有効
  • 下の式はzの影響を排除したxとyの相関を表している

$$ r_{xy\cdot z} = \frac{r_{xy} - r_{xz}r_{yz}} {\sqrt{1 - r_{xz}^2} \sqrt{1 - r_{yz}^2}} $$

順位相関係数(Spearman's rank correlation coefficient)

  • 確率変数が順位のモノに使用する相関係数
  • 2変数のデータの順序が全て一致する場合は1、逆順にすると全て一致する場合は-1の値をとる
  • なお、$d_i$はデータ$X_i$と$Y_i$の順位の差

$$ r_s = 1 - \frac{6\displaystyle \sum_{i = 1}^n {d_i}^2}{n(n^2 - 1)} $$

references:

  • https://bellcurve.jp/statistics/glossary/1233.html
  • https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82
  • https://bodais-datascientist.blogspot.com/2017/04/blog-post_25.html
  • https://toukeigaku-jouhou.info/2015/08/26/post-441/
  • https://bellcurve.jp/statistics/glossary/821.html
  • https://bellcurve.jp/statistics/glossary/2052.html
  • https://bellcurve.jp/statistics/glossary/1370.html
  • https://bdm.change-jp.com/?p=3137

自己共分散

$$ \mu_t = {\rm E}(y_t) \\ C_{t, k} = {\rm Cov}(y_t, y_{t-k}) = {\rm E}\{(y_t - \mu_t)(y_{t-k}- \mu_t)\} \\ $$

自己相関係数(autocorrelation coeffficient)

  • 時系列データでの過去のデータ相関のことを「自己相関」という
  • 時系列データはカラムが時間になる。過去の時間の値と相関が強い $$ R_{t, k} = \frac{{\rm Cov}(y_t, y_{t-k})} {\sqrt{ {\rm V}(y_t){\rm V}(y_{t-k}) }} = \frac{C_{t, k}}{C_{t, 0}} $$

自己相関(autocorrelation )と交差相関(cross correlation)

相関変数
自己相関1組の時系列データ
交差相関2組の時系列データ

コレログラム(correlogram)

  • 異なるラグについて自己相関係数もしくは交差相関系数を算出し、横軸にラグ、縦軸に相関係数をとったグラフのこと

時系列データの4つの要因

傾向変動トレンド
循環変動サイクル
季節変動シーズン
不規則変動ノイズ

季節性(Seasonality)

  • 季節変動のこと

自己相関 = 系列相関

references:

  • https://bellcurve.jp/statistics/glossary/1233.html
  • https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82
  • https://bodais-datascientist.blogspot.com/2017/04/blog-post_25.html
  • https://toukeigaku-jouhou.info/2015/08/26/post-441/
  • https://bellcurve.jp/statistics/glossary/821.html
  • https://bellcurve.jp/statistics/glossary/2052.html
  • https://bellcurve.jp/statistics/glossary/1370.html
  • https://bdm.change-jp.com/?p=3137

離散変数と確率変数

確率変数

「確率変数」は、ある変数の値をとる確率が存在する変数のこと

サイコロの例

$$ X = \{1,2,3,4,5,6\} \\ $$

確率分布(probability distribution)

確率変数がとる値とその値をとる確率の対応の様子を「確率分布」という

サイコロの出目の確率分布

サイコロの出目($X$)123456
確率($P(X)$)1/61/61/61/61/61/6

サイコロの出目の確率分布(グラフ)

references:

  • https://bellcurve.jp/statistics/course/#step1

離散型と連続型

離散型

離散型確率変数

確率変数Xの取りうる($x_n$)値に対応する確率($p_n$)が存在する場合

例) サイコロの出目

確率質量関数

離散型確率変数Xがある値xをとる確率を関数$f(x)$のこと

$$ f(x) = P(X=x) \\ $$

確率質量関数の全事象

$$ \sum_{i=1}^{n} P(X=x_i) = 1 $$

連続型

連続型確率変数

連続型変数の取りうる値に対応する確率が存在する場合、この変数を「連続型確率変数」といい

例) 体重

  • なお、連続型確率変数のある点の確率は0になる
  • そこで、確率変数の区間を指定して、確率密度で確率を求める

例) 50kgの体重の確率

$$ P(X=50)=\frac{1}{\infty} = 0 $$

確率密度

確率密度は定義域内でのの値の「相対的な出やすさ」を表すもの

確率密度関数

連続型確率変数Xがある値xをとる確率密度をf(x)確率密度関数とする

例) 50kg~60kgの体重の確率

$$ P( 50 \leq X \leq 50)=\int_{50}^{60} f(x) \space dx $$

確率密度関数の全事象

$$ P( -\infty \leq X \leq \infty)=\int_{-\infty}^{\infty} f(x) \space dx = 1 $$

累積分布関数

累積分布関数とは「確率変数がある値以下の値となる確率」を表す関数。大文字Fを使う

$$ F(x) = P(X \leq x) $$

REFERENCES:

  • https://bellcurve.jp/statistics/course/6708.html

試行、事象、確率

用語意味
試行(trial)ある条件で操作すること
事象(event)ある試行の結果起こる事柄
生起(occurrence)事象が起こること
確率(probability)ある事象の生起の相対頻度

確率の例

  • サイコロを1回振って(試行)、2の目の事象$A$が起こる確率$P(A)$は次のように表す

$$ P(A=2) = \frac{1}{6} $$

ラプラスの確率の定義

  • 試行の根本事象が全部でN個あって、それらが同様に確からしい(equally likely)の時、
  • ある事象Aの確率は、それが起きれば事象Aにとって都合の良い根本事象の数Rを使い、
  • 次のように定義される

$$ P(A) = \frac{R}{N} $$

頻度による定義

  • 頻度論(frequency theory)では、相対度数を元に実験して確率を定義する

理由不十分の原則(principle of insufficient reason)

  • 事象の発生確率の予測が全くできない場合に、全ての事象の発生確率が等しいと仮定する原則
  • つまり、反対するのに十分な理由がない場合にそうなると信じること
  • ベイズ統計学では、事象の発生確率がまったく予測できないときには、すべての事象の発生確率は等しくなると考える

確率論の公理(下の3つ)

  1. 全ての事象Aに対して、

$$ 0 \leq P(A) \leq 1 $$

  1. 全事象の確率は

$$ P(\Omega) = 1 $$

  1. 互いに排反な事象$A_1, A_2, \cdots$に対して、

$$ P(A_1 \cup A_2 \cdots) = P(A_1) + P(A_2) + \cdots $$

事象とは

  • In probability theory, an event is a set of outcomes of an experiment (a subset of the sample space) to which a probability is assigned
  • 事象と集合はほぼ同じ概念

ランダム

用語意味
ランダムネス(randomness)何が次に起こるか確定的に予測できないこと
ランダムネスの法則(law of randomness)その法則

標本空間と事象

用語意味
事象(event)起こる事柄(標本空間の部分集合)
余事象(complementary event)全事象の補集合
標本点(sample point, $\omega$)事象の中の個々の結果のこと
標本空間/全事象(sample space, $\Omega$)可能な事象の集合
空事象(empty event, $\phi$)標本点を一つも含まず、決して起こらないこと
根本事象(elementary event)ただ一つの標本点からなり、分解できない事象
複合事象標本点を2つ以上含み、根本事象に分解可能なもの

$$ 標本点 \in 事象 \subset 標本空間 \subset 母集合 $$

サイコロの例

コインを一回投げて表を1、裏を0とした場合の標本空間は次で、

$$ \Omega = \{0, 1\} $$

それらの事象は次の4つある。
また、一般にn個の要素がある集合の部分集合は$2^n$個ある(今回は4)。

$$ \{0, 1\}, \{1\}, \{0\}, \phi $$

さらに2回投げた場合の標本空間は、

$$ \Omega = \{(0,0), (0,1), (1,0), (1,1)\} $$

REFERENCES:

  • https://en.wikipedia.org/wiki/Event_(probability_theory)

集合の関係

$\Omega$を全集合とし、A, Bを部分集合とする($A, B \subset \Omega$)

演算
全事象/全集合(whole events)$\Omega$
和事象/和集合/茶碗(union/sum of events)$A \cup B$
積事象/積集合/帽子(intersection/product of events)$A \cap B $
余事象/余集合(complementary event)$A^c$ or $A'$
排反事象(disjoint events/Exclusive event)$A \cap B = \phi$

積集合と差集合の比較

$$ A \times B = A\cap B=\{x\mid x\in A\text{ and } x\in B\} \\ A - B = A\setminus B=\{x\mid x\in A\text{ and } x\notin B\} $$

和と積の法則

法則
和の法則(加法定理)$P(A) + P(B) = P(A\cup B)=P(A)+P(B)-P(A\cap B)$
積の法則(乗法定理)$P(A_1) \times P(A_2) = P(A_1 \cap A_2) = P(A_1) \cdot P_{A_1}(A_2) = P(A_2) \cdot P(A_1|A_2)$

NOTE:

  • 1回目の試行で起こった事象を$A_1$とし、2回目の試行で起こった事象を$A_2$とする
  • また、$P_{A_1}$は$A_1$が起こった条件での$P(A_2)$が起こる確率を示す

試行と事象

現象
試行(trial)サイコロを投げる
事象(event)4の目が出る

排反事象と独立試行

用語意味影響する演算
排反事象事象AとBが同時に起こらない事象の和の演算(1)
独立試行前に行った試行($T_1)$の結果が次の試行($T_2$)に全く影響を与えないこと事象の積の演算(2)
  • (1): $A \cap B$を加味する必要がなくなるから
  • (2): $T_2$での確率を加味する必要がなくなるから

用語

  • ベン図
  • ド・モルガンの法則

REFERENCES:

  • https://toukeigaku-jouhou.info/2015/08/23/post-297/
  • http://www.cottonpot01.com/JpnEng/JpnEngSta120160825.pdf
  • https://excelmath.atelierkobato.com/probability-basic/
  • https://math.stackexchange.com/questions/165328/what-is-the-difference-between-the-symbols-cap-and-setminus
  • https://integraldx.info/independent-disjoint-712
  • http://w3e.kanazawa-it.ac.jp/math/category/kakuritu/kakuritu/henkan-tex.cgi?target=/math/category/kakuritu/kakuritu/kakuritu-no-seki-no-housoku.html
  • http://w3e.kanazawa-it.ac.jp/math/category/kakuritu/kakuritu/henkan-tex.cgi?target=/math/category/kakuritu/kakuritu/kakuritu-no-seki-no-housoku.html

順列と組み合わせ

パターン
組み合わせ (combination)$$_n \rm C _r = \frac{_n \rm P _r}{r!} = \frac{n!}{r!(n-r)!}$$異なるn個のモノからr個選んで一列に並べる「並べ方」
重複組み合わせ (repeated combination)$$_n \rm H _r = _{n+r-1}C_r $$重複ありの並べ方
順列 (permutation)$$_n \rm P _r = \frac{n!}{(n-r)!}$$異なるn個のものからr個選ぶ「選び方」
重複順列 (repeated permutation)$$_n \Pi _r = n^r$$重複ありの選び方

組み分け(grouping)の全パータン

組み分け問題とはヒトやモノを複数グループに振り分けていく問題

  • A: 分けられるものの区別がつくか
  • B: 分けるグループの個数が決まっているか
  • C: 分けるグループの区別ができるか
ABCパターン
YesYesYes組み合わせ$${}_n \rm C _r$$
YesYesNo組み合わせ / 重複度$${}_n \rm{C} _r \div p!$$
YesNoYes重複順列$${}_n \Pi _r$$
YesNoNo重複順列 / 重複度$${}_n \Pi _r \div p!$$
NoNoYes重複組み合わせ$${}_n \rm H _r $$
NoNoNo全て書き出すのみ$$None$$

スターリングの近似(Stirling's approximation)

$$ n!\simeq\sqrt{2\pi n}\left(\dfrac{n}{e}\right)^n $$

REFERENCES:

  • https://examist.jp/mathematics/baainokazu/kumiwake/
  • https://www.studyplus.jp/371
  • https://mathtrain.jp/stirling

確率変数と実現値

変数記法
確率変数(random variable)大文字
観測値/実数値(observed value)小文字

確率変数の種類

種類
離散確率変数(Discrete random variable)サイコロを一回投げた出目
連続確率変数(Continuous random variable)ある人の100メートル走の記録

確率変数の例

  • 離散確率変数
    • サイコロの出目の離散確率変数は $X = \{1, 2, 3, 4, 5, 6\}$
    • 離散確率関数は $P(X=1) = \frac{1}{6}$
    • 確率は生起確率(点)
  • 連続確率変数
    • 100メートル走の記録は $X_2 = \{\inf \dots \}$
      • NOTE: サイコロの出目のように決まらない
    • 連続確率関数は $P(10 < X_2 < 12)$
    • 確率は確率密度(面積)

確率分布

  • 連続型確率変数の確率分布
    • 確率密度関数
      • 総和
  • 離散型確率変数の確率分布
    • 確率質量関数
      • 積分

累積分布関数(cumulative distribution function)

  • 「確率変数 がある値 以下( )の値となる確率」を表す関数

従う

ある確率変数$X$が確率分布$f(x)$を持つ時、$X$は$f(x)$に従うという

REFERENCES:

  • https://www.google.com/search?q=%E7%A2%BA%E7%8E%87%E5%A4%89%E6%95%B0+%E3%81%A8%E3%81%AF&oq=%E7%A2%BA%E7%8E%87%E5%A4%89%E6%95%B0%E3%80%80%E3%81%A8%E3%81%AF&aqs=chrome..69i57j0l6.3589j1j7&sourceid=chrome&ie=UTF-8
  • https://www.youtube.com/watch?v=gEF_o95YClo&list=PLdyM_iZEFdcu6rdErwtvEbZEQwMsk1UXK&index=2

期待値と分散と標準偏差

離散型の場合

$$ P(X=x_k) = f(x_k) \\ \sum_{k=1}^{\infty}f(x_k) = 1 \\ E(X) = \sum_{x}x f(x) \\ V(X) = \sum_{x}(x-\mu)^2 f(x) \\ D(X) = \sqrt{V(X)} \\ $$

連続型の場合

$$ P(X=x_k) = f(x_k) \\ \int_{-\infty}^{\infty} f(x) \space dx = 1 \\ E(X) = \int_{-\infty}^{\infty} xf(x)\space dx \\ V(X) = \int_{-\infty}^{\infty} (x-\mu)^2f(x)\space dx \\ D(X) = \sqrt{V(X)} \\ $$

標準化した場合

$$ Z = \{X-X(X)\} / \sqrt{V(X)} \\ E(Z) = 0, \space V(Z) = 1 $$

$$ E(X) = E(0 \leq X \leq 6) \\ = \int_{0}^{6} xf(x) \space dx \\ = \int_{0}^{6} x\frac{1}{6} \space dx \\ = [\frac{x^2}{12}]_{0}^{6} \
= 3 $$

REFERENCES:

  • https://bellcurve.jp/statistics/course/6712.html

確率密度(Probability density)

そもそもなぜ確率密度なのかについて

密度の定義は次。

$$ d = \frac{m}{v} $$

  • density(d): 密度
  • mass(m): 質量
  • volume(v): 体積

例えば、質量が10gで体積が$5ch^3$の場合は上記の式から次となる。

$$ 10/5 = 2g/cm^3 $$

つまり、密度は単位面積あたりの質量(重さ)

  • なぜ確率密度(density)と確率質量(mass)かというと、
  • 確率密度はある確率変数の間(区間)の面積あたりの確率($m/v$)だから、
  • 例えば、日本人の身長の分布(連続型確率変数)では、160cm($P(X=160)$)の確率は0となる
  • 他方、確率質量は区間が必要ないから、分母($v$)がいらず、ある点における値=質量($m$)となる
  • 例えば、サイコロの出目の分布(離散確率変数)では、1の出目($P(X=1)$)の確率は1/6となる

確率分布とは

  • 確率変数に対して、各々の値をとる確率を表したもの

分布表(確率表、数値表)

  • 確率変数と生起確率の表

確率分布関数の分類

確率変数確率分布関数
離散型確率変数確率質量関数 (probability mass function; PMF)
連続型確率変数確率密度関数 (Probability Density Function; PDF)

離散型確率分布の例

種類
一様分布サイコロの出目の確率など
二項分布 (ベルヌーイ分布)コインを投げたときに表が出るか裏が出るかなど
ポアソン分布nが大きく確率pが非常に小さいこと。交差点の事故など

連続型確率分布の例

種類特徴
n分布(正規分布, ガウス分布)平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布
Z分布(標準正規分布)一般正規分布を標準化した、標準正規分布
T分布(Student's t-distribution)正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される
$X^2$分布正規分布に従ういくつかの変数があるとき、それらの二乗和が従う分布のこと
F分布カイ二乗分布に従う2変数の比であり、分散の分析に用いられる

REFERENCES:

  • https://bellcurve.jp/statistics/glossary/773.html
  • https://www.youtube.com/watch?v=jd-WrUgZUxQ
  • https://bellcurve.jp/statistics/glossary/458.html

歪度と尖度

歪度(skewness)

  • 分布の非対称具合を示す
  • Z値の3乗平均

$$ \alpha^3 = \dfrac{E[(X-\mu)^3]}{\sigma^3} \\ =\frac{1}{n}\ \sum(\frac{X_i -μ}{\sigma})^3 $$

尖度(kurtosis)

  • 分布の尖り具合を示す
  • Z値の4乗平均
  • 基準の定数$3$は正規分布の尖度
    • つまり、正規分布と比較する

$$ \alpha^4 = \dfrac{E[(X-\mu)^4]}{\sigma^4} \\ =\frac{1}{n}\ \sum(\frac{X_i -μ}{\sigma})^3 $$

基準は

$$ \alpha^4 - 3 $$

REFERENCES:

  • https://mathtrain.jp/waidosendo
  • https://bellcurve.jp/statistics/course/17950.html
  • https://toukeigaku-jouhou.info/2017/08/01/skewness/
  • https://toukeigaku-jouhou.info/2017/08/20/kurtosis/

母関数(generating function)

母関数とは数列に関する情報を全て含んだ関数です。つまり,数列の一般項が分かれば母関数を構成することができますし,母関数が分かればその数列の一般項を求めることもできます。母関数と数列は一対一に対応しているのです。数列を生み出す関数という意味で「母関数」と呼ばれます。

$$ f(x) = \sum_{n=0}^{\infty}a_n x^n = a_0 + a_1 x + a_2 x^2 + a_3 x^4 + \cdots $$

https://mathtrain.jp/bokansu

等差数列の一般項の例

  • 数列 1, 2 ,3 の一般項は $a_n = n$
  • つまり、$a_1 = 1$, $a_2 = 2$, $a_3=3$

級数(series)と数列(numerical sequence)の違い

  • 数列: $1, 2, 3, 4...n$
    • 数が列になったもの
  • 級数: $S_N := a_0 + a_1 + a_2 + \cdots + a_N = \sum_{n=0}^N a_n$
    • 数や関数など互いに足すことのできる数学的対象の列について考えられる無限項の和

確率母関数(probability generating function)

  • 離散確率変数 $X∈{0,1,2,…}$ の確率質量関数が $Pr[X=j]=p_j$ のとき,$|t|≤1$ を満たす実数 $t$ に対して,確率母関数は次
  • 要は変数tを引数に、べき級数(power series)を作りたい、そしてそのべき級数から代表値を求めたい
  • ちなみに、tの意味はない

$$ G_X(t)=\mathrm{E}[t^X]=\sum_{j=0}^\infty p_j t^j $$

tで微分した$G_X^{'}$に1を代入すると期待値になる

$$ G_X^{'}(1) = E(X) $$

references

  • http://ibisforest.org/index.php?%E7%A2%BA%E7%8E%87%E6%AF%8D%E9%96%A2%E6%95%B0
  • https://stats.stackexchange.com/questions/186889/what-is-t-in-generating-functions
  • https://ja.wikipedia.org/wiki/%E7%B4%9A%E6%95%B0

モーメント(積率)

意味

  • 確率変数のべき乗に対する期待値で与えられる特性値
  • 積率とも

$$ \sum_{i=0}^{n} X_i^rP(X=X_i) $$

統計学におけるモーメントは物理学におけるモーメントの類推である.物理学におけるモーメントが長さと力の積であるのに対し,統計学のモーメントは標本と確率の積で与えられる.

https://data-science.gr.jp/theory/tbs_moment.html

原点のまわりのr次のモーメント

$$ \mu_r = E(X^r) $$

期待値(平均)のまわりのr次のモーメント

  • 平均周りの場合はピリオドがつく

$$ \mu_r^{'} = E\{(X-\mu)\}^r $$

標準化モーメント

  • 中身は標準化数量Zになっている

$$ \alpha_r = E\{(X-\mu)/\sigma\}^r $$

平均と分散

  • また、期待値と分散はモーメントの基礎的なもの

$$ \mu_1 = E(X) \\ \mu_2^{'} = V(X) \\ $$

モーメント母関数/積率母関数(moment generating function)

目的はモーメントをまとめてあつかうため

$$ M_X(t) = E(e^{tX}) $$

離散型

$$ M_X(t) = \sum_{x}e^{tx}f(x) $$

連続型

$$ M_X(t) = \int_{-\infty}^{\infty}e^{tx}f(x) \space dx $$

モーメント母関数から期待値

$$ M_X(t)=E[e^{tX}] $$

上式をマクローリン展開すると、

$$ =E\left[1+tX+\dfrac{t^2}{2}X^2+\dfrac{t^3}{3!}X^3+\cdots\right] $$

ここで,期待値の線形性を使うと上式は次になる。

$$ =1+E[X]t+\dfrac{E[X^2]}{2!}t^2+\dfrac{E[X^3]}{3!}t^3+\cdots $$

これをtについて一回微分すると、

$$ M_X^{'}(t)= E[X]+2\dfrac{E[X^2]}{2!}t+3\dfrac{E[X^3]}{3!}t^2+\cdots $$

1回微分にt=0を代入すると期待値になる。

$$ M_X^{'}(0)= E(X) = \mu_1 $$

2回微分にt=0を代入すると$X^2$の期待値になる。

$$ M_X^{''}(0)= E(X^2) = \mu_2 $$

REFERENCES:

  • http://www.data-arts.jp/course/probability/characteristic_values/moment.html
  • https://mathtrain.jp/momentgf

キュラメント

 

チェビシェフの不等式

  • 確率変数Xの平均$\mu$、標準偏差$\sigma$がともに有限なら、任意のk(>0)に対して次の式が成り立つ(どんな確率分布でも)。

$$ P(|X-\mu| \geq k\sigma) \leq \frac{1}{k^2} $$

  • 絶対値を含む不等式なので、場合分けすると、
  • これは即ち次の2つと同じ

$$ P(X\geq \mu+k\sigma)\leq\frac{1}{k^2} ~~~ (X\geq\mu) $$

$$ P(X\leq \mu-k\sigma)\leq\frac{1}{k^2} ~~~ (X<\mu) $$

その例

  • 平均0から、2($=k$)標準偏差以上離れたいかなる値Xは全体の1/4を越えることは無い

$$ x = \{1, -1\} \\ \mu = 0 \\ \sigma = 1\\ k = 2\\ P(X\geq \mu+k\sigma)\leq\frac{1}{k^2} \\ = P(X\geq 2)\leq \frac{1}{4} \\ $$

references:

  • https://www.slideshare.net/hoxo_m/ss-35863564
  • https://data-science.gr.jp/theory/tbs_chebyshev_inequality.html

確信度 (degree of belief)

ベイズ確率における主観確率のこと

  • ベイズ確率は、頻度主義のように一定の確率というよりかは、主観的な確率になる。
    • 頻度主義の例: サイコロの出目の1の出る確率は1000回試行すれば算出可能
    • あくまで試行回数と頻度という概念がある
  • 特に条件付き確率の場合は、ある事を観測した結果の確率なので、主観がはいる
    • 例えば、Aさんがウイルス検査で陽性だったとき(条件)の本当に陽性の確率(条件付き確率)は、あくまで主観
    • パラレルワールドでもない限り、Aさんがウイルス検査で陽性だった時に本当に陽性の確率は算出不可能
    • なぜなら試行して頻度を出していないから
  • なので、ベイズ確率の確率は、ある観測をした結果の主観的な確率=確信度とも言える
    • なぜなら条件の情報を知らなかったら確率が変わるから。
    • Aさんがウイルスで陽性だと知ったときの陽性である確率と、Aさんがウイルス検査をしたときの陽性である確率は別
    • 情報を知っているかいないか(主観)で確率が変わってしまう
  • これを頻度主義的に解釈するにはパラレルワールドが存在すると仮定すればいい
    • つまり、確率の母集団として、色々なパラレルワールドで試行されているもので、
    • ある情報を得た時に、母集団(パラレルワールド)の世界線が消えたのだと

REFERENCES:

  • https://enakai00.hatenablog.com/entry/2015/04/06/182708

ベイジアン

「確信度」という観点で確率を捉える立場を「ベイズ主義」という

ベイズ主義

主義による確率

確率意味
客観確率(subjective probability)事象の生起の程度を相対頻度から評価した確率
主観確率(objective probability)事象の生起の不確実性の程度を主観を混ぜて評価した確率

reference:

  • https://bellcurve.jp/statistics/course/6446.html
  • https://kotobank.jp/word/%E7%A2%BA%E4%BF%A1%E5%BA%A6-688271
  • https://link.springer.com/article/10.1007%2Fs11225-007-9059-4

事前確率と事後確率

時間による確率

確率意味
事前確率(prior prpbability)ある事象が起こる前の確率
事後確率(posterior probability)ある事象が起こったあとの確率

reference:

  • https://bellcurve.jp/statistics/course/6446.html
  • https://kotobank.jp/word/%E7%A2%BA%E4%BF%A1%E5%BA%A6-688271
  • https://link.springer.com/article/10.1007%2Fs11225-007-9059-4

規格化(normalization)

確率が全部足して1になること

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E8%A6%8F%E6%A0%BC%E5%8C%96
  • https://mathtrain.jp/pmitsudo

トランプの例 (事前確率、事後確率)

  • トランプの最初の一枚が何の絵札かを当てるゲーム
  • 無論、すべての絵札は均等なので、絵札の出る確率はそれぞれ$1/4$(事前確率)となる
  • ここで別の人がトランプの1枚目をめくり、赤いカードだった確認した。
  • 結果、ハートかダイヤのみの確率なので、スペードとクローバーが消えて、
  • 規格化のため、ハートとダイヤの確率が$1/4$から$1/2$に変化した(事後確率)

トランプの例(同時確率と条件付き確率)

あるトランプカード52枚から1枚のカードを抜く時、それが

$$ エースである事象 = A \\ ハートである事象 = B $$

と置くと、

  • エースでありハートである事象の確率(同時確率)は次となる。
  • ハートでエースはトランプカードの中に1枚しかないので。

$$ P(A, B) = 1/52 $$

  • 他方、実際に確認したらエースで合った時(条件)、
  • そのハートである確率(条件付き確率)は次になる。

$$ P(B|A) = 1/4 $$

つまり、エースのカードだったときの、ハートの確率は1/4

  • 情報を知らない人に取っては確率は = 1/52
  • 情報を知っている人には確立は = 1/4
  • なので、主観確率と呼ばれる所以

検査の例

  • Aさんは、ウイルスに感染している恐れがあるので、ウイルス検査を受けました。
  • 一般にAさんの年代の人がウイルスに感染している確率(割合)は1%です。
  • ウイルス検査の精度は95%です。
  • つまり、感染している人に正しく「陽性反応」が出る確率は95%で、感染していない人に正しく「陰性反応」が出る確率も95%です。
  • Aさんはウイルスに罹患していると結果がでました
  • ではAさんがウイルスに罹患している確率は何%でしょうか?

問題の解き方

  1. 事前確率を定義
  2. 条件確率を定義
  3. 条件付き確率の結果を観測
  4. ありえない条件を消去
  5. 条件付き確率を正規化
  6. 事後確率(ベイズ逆確率)を算出

問題の解き方の例

事前確率は陽性は0.01, 陰性は0.09

条件付き確率は次の通り

-陽性(1%)陰性(99%)
陽性反応(95%)TP=P(T,P) = 0.0095=0.01*0.95FP=P(F,P) = 0.9405=0.99*0.95
陰性反応(5%)FN=P(F,N) = 0.0005=0.01*0.05TN=P(T,N) = 0.0495=0.99*0.05

無論確率全体では1になる

$$ \Omega = TP + FP + FN + TN = 0.0095 + 0.9405 + 0.0005 + 0.0495 = 1 $$

また、列で見ても100%になる

$$ 0.01 = 0.0095 + 0.0005 \\ 0.99 = 0.9405 + 0.0495 $$

陽性だと結果がでたので、FNとFPの確率は消えた。 よって、条件付き確率は次のようになる

-陽性(1%)陰性(99%)
陽性反応(95%)TP = 0.0095=0.01*0.95)FP =0
陰性反応(5%)FN = 0TN =0.0495=0.99*0.05

表のセルの大きさを変えると、

全体で規格化(確率の総和が1になること)することが必要のため、TPの実際の確率を求める

$$ 1:x = TP+TN: TP \\ x*(TP+TN) = TP \\ x = TP / (TP+TN) \\ x = 0.0095 / (0.0095 + 0.0495) \\ x = 0.16101694915 \simeq 16 \% $$

つまり、95%が正しく陽性と出る検査でも、実際は16%の確率で本当の陽性となる ベイズの定理で示すと次になる。

$$ P(感染 \mid 陽性) = \frac{P(陽性, 感染)}{P(陽性, 感染)+P(陽性, 非感染)} = 0.16 $$

REFERENCES:

  • https://enakai00.hatenablog.com/entry/2015/04/06/182708

ベイズの定理

条件付き確率(conditional probability)

  • 事前確率P(B)が生起したあとに、事後確率P(A)が生起する確率

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

同時確率(joint probability)

  • 確率P(A)と確率P(B)が同時に起きる確率
  • 乗法定理(multiplication theorem of probability)でもある

$$ P(A \cap B) = P(X,Y)=P(X \mid Y)P(Y)=P(Y \mid X)P(X) \\ $$

  • 事象が独立の時の同時確率

$$ A \cap B = \phi \\ \therefore P(A,B) = P(A) \cdot P(B) $$

周辺確率(marginal probability)

  • ある事象についての確率
  • 同時確率を足し合わせることを、周辺化(Marginalization)とも

$$ P(X) = \sum_{Y}P(X,Y) $$

同時確率、周辺確率、条件付き確率の意味

  • グー、チョキー、パーをランダムで出すジャンケンマシーンを2回動かしたときの、同時確率の表。
  • X:グーを出した回数
  • Y:チョキを出した回数

確率
周辺確率(横)$P(X=0)=\sum_{y=0}^2P(X=0,Y=y) = \frac{1+2+1}{9} = \frac{4}{9}$
同時確率(点)$P(X=2,Y=2)= \frac{1}{9}$
条件付き確率(縦)$P(X|Y=1) = \frac{2+2+0}{9} = \frac{4}{9}$

ベイズの定理 (Bayes' theorem)

  • 原因から結果(過去->未来)の確率ではなく 結果から原因(未来->過去)の確率を出すこと。
  • 基本的に確率は現象の未来の結果を予測するので、時間の流れが逆になっている。
  • 結果を$Y$、原因を$X$とすると、

$$ P(X|Y)=\dfrac{P(X)P(Y|X)}{P(Y)} $$

  • この時、
    • $(P(X)$ を事前確率(prior probability)、
    • \(P(X|Y)\)を事後確率(posterior probability)という

その他

  • モンティホール問題(Monty Hall problem)

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E3%83%A2%E3%83%B3%E3%83%86%E3%82%A3%E3%83%BB%E3%83%9B%E3%83%BC%E3%83%AB%E5%95%8F%E9%A1%8C
  • https://www.iwanttobeacat.com/entry/2018/02/06/220000
  • https://mathwords.net/doujibunpu
  • https://bellcurve.jp/statistics/course/6444.html

同時確率

ある事象Aとある事象Bが同時に起こる確率

条件付き確率

確率意味表記
通常の確率ある事柄A(事象A)が起こる確率$Pr(A)$
条件付き確率ある事柄A(事象A)が起こったという条件のもとで、事柄B(事象B)が起こる確率$Pr(A|B)$

周辺確率

最尤原理

「世の中で起きていることは、起きる確率が大きいことである」という原理 つまり、結果の確率を最も大きくする原因の確率を選ぶこと

最尤推定量

最尤推定量とは、手元のデータが、どの母パラメータに従う分布から得られる確率が最も高いかに基づいて考えられる推定量

EX)

コインが1枚ある。このコインはどうもイカサマコインらしく、表の出る確率が$1/2$ではないらしい。ここで表の出る確率を調べるために、このコインを10回投げたところ、8回表が出た。さて、このコインの表が出る確率はいくつだろうか?

$8/10$なので、80%と用意に推定できる。

母パラメータはこの場合は真の確率

コインの表が出る真の確率が1/2のとき、10回中8回表が出る確率

$$ {}_{10}C_8(\frac{1}{2})^8(\frac{1}{2})^2 = \frac{ {}_{10} C _8 }{2^{10}} \approx 0.0439=4.39% $$

コインの表が出る真の確率が2/3のとき、10回中8回表が出る確率

$$ {}_{10}C_8(\frac{2}{3})^8(\frac{1}{3})^2\approx 0.195=19.5% $$

コインの表が出る真の確率が3/4のとき、10回中8回表が出る確率

$$ {}_{10}C_8(\frac{3}{4})^8(\frac{1}{4})^2\approx 0.282=28.2% $$

コインの表が出る真の確率が4/5のとき、10回中8回表が出る確率

$$ {}_{10}C_8(\frac{4}{5})^8(\frac{1}{5})^2\approx 0.302=30.2% $$

コインの表が出る真の確率が5/6のとき、10回中8回表が出る確率

$$ {}_{10}C_8(\frac{5}{6})^8(\frac{1}{6})^2\approx 0.291=29.1% $$

上の結果から、「10回中8回表が出る」というデータが得られる確率が最も高くなるのが4/5のときと分かる。

REFERENCES:

  • https://to-kei.net/basic-study/estimator/maximum-likelihood-estimation/

二項分布の最尤推定量

パラメータθに従う分布の密度関数をf(x;θ)とする。尤度関数をL(θ;x)=f(x;θ)とすると、L(θ;x)を最大にするような推定量θ=θ^をθの最尤推定量という。

二項分部の密度関数は、
例) 表の確率= $\theta$。裏の確率 = $(1 - \theta)$

$$ f(x;\theta)={}_nC_x\theta^x(1-\theta)^{n-x} $$

なので、尤度関数は

$$ L(\theta;x)={}_nC_x\theta^x(1-\theta)^{n-x} $$

このL(θ;x)が最大になるようなθを考える。 ただし、この関数を微分するのは大変なので、対数尤度関数を微分する

$$ l(\theta)=logL(\theta;x) $$

$$ l(\theta)=logL(\theta;x)=log[{}_nC_x\theta^x(1-\theta)^{n-x}] \\ =log[\frac{n!}{x!(n-x)!}\theta^x(1-\theta)^{n-x}] \\ =log(n!)-log(x!)-log(n-x)!+log\theta^x+log(1-\theta)^{n-x} \\ =log(n!)-log(x!)-log(n-x)!+xlog\theta+(n-x)log(1-\theta) $$

NOTES:

  • 対数の割り算=対数の引き算
  • 対数の掛け算=対数の足し算
  • 対数の指数=対数の係数

NOTES: $$ (\log x)' = \frac{1}{x} \\ (\log_a x)' = \frac{1}{x \log a} $$

となるので、θで微分すると、

$$ l'(\theta)=\frac{x}{\theta}-\frac{n-x}{1-\theta} \\ =\frac{x(1-\theta)-(n-x)\theta}{\theta(1-\theta)} \\ =\frac{x-n\theta}{\theta(1-\theta)} $$

が得られる。これが0となるとき最大になるので、

$$ \frac{x-n\theta}{\theta(1-\theta)}=0 \
\Leftrightarrow x-n\theta=0 \\ \Leftrightarrow x=n\theta \\ \Leftrightarrow \theta=\frac{x}{n} $$

以上より、$\hat{\theta}=\frac{x}{n}$がθの最尤推定量となる

REFERENCES:

  • https://to-kei.net/basic-study/estimator/maximum-likelihood-estimation/

尤度関数、対数尤度関数、スコア関数

対数尤度関数は尤度関数に対数をとったもの、スコア関数は対数尤度関数を微分したもの

パラメータがθである母集団の従う分布の確率密度関数をf(x;θ)としたとき

尤度関数

$$ L(\theta)=f(x;\theta) $$

対数尤度関数

$$ l(\theta)=logL(\theta) $$

スコア関数

$$ V(\theta)=\frac{\partial}{\partial\theta}l(\theta)=\frac{\partial}{\partial\theta}logL(\theta) $$

REFERENCES:

  • https://to-kei.net/basic-study/estimator/likehood-score-fisher/

離散一様分布 (discrete uniform distribution)

  • 確率変数Xの値に関わらず,確率密度関数が常に一定の値を与える確率分布
  • 母数は確率変数Xの取り得る最大の値N

確率質量関数は以下

$$ f(x) = \frac{1}{N} $$

離散一様分布は$DU(N)$

$$ DU(N) $$

モーメント母関数

$$ M_X(t)=\frac{1}{N}\sum_{x=1}^{N}e^{tx} $$

期待値

$$ \begin{eqnarray*} E(X)&=&\sum_{x=1}^{N}xf(x)\\ &=&\sum_{x=1}^{N}x\frac{1}{N}\\ &=&\frac{1}{N}\sum_{x=1}^{N}x\\ &=&\frac{1}{N}\frac{N(N+1)}{2}\\ &=&\frac{N+1}{2} \end{eqnarray*} $$

分散

$$ \begin{eqnarray*}V(X)=\frac{N^2-1}{12}\tag{5}\end{eqnarray*} $$

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_continuous_uniform_distribution.html
  • https://data-science.gr.jp/theory/tpd_discrete_uniform_distribution.html

ベルヌーイ分布 (bernoulli distribution)

ベルヌーイ試行,すなわち,成功または失敗等で表される2種類の可能な結果が生じる試行を行ったときに,どちらか一方 (多くの場合,成功) が生起する回数の分布が従う確率分布をベルヌーイ分布 (Bernoulli distribution) という.二項分布との違いは,二項分布がベルヌーイ試行を独立にn回繰り返したときに,生起確率がpである片方の結果がx回生じる確率が従う分布であるのに対し,ベルヌーイ分布は試行回数が1回 (n=1) のみのときにおいて片方の結果が生起する確率が従う分布である点である

母数

  • p: 一方の結果の生起確率

確率質量関数

  • qはもう一方の結果の1回の試行における生起確率 (1-p) のこと

$$ \begin{eqnarray*} q = (1-p) \\ f(x)=p^xq^{1-x} \end{eqnarray*} $$

略期

$$ X \sim Ber(p) $$

確率変数の範囲

$$ x = 0, 1 $$

モーメント母関数

$$ \begin{eqnarray*} M_X(t) &=&E(e^{tx})\\ &=&\sum_{x=0}^{1}e^{tx}p^xq^{1-x}\\ &=&pe^t+q \end{eqnarray*} $$

期待値

$$ E(X) = p $$

分散

$$ V(X) = pq $$

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_bernoulli_distribution.html

二項分布 (binomial distribution)

種類の可能な結果が生じる試行(ベルヌーイ試行)を独立にn回繰り返したときに,1回の試行における生起確率がpである一方の結果(成功)がx回生じたとして,そのx(成功数)が従う確率分布のこと

$$ \begin{eqnarray*}f(x)={}_n\mathrm{C}_xp^x(1-p)^{n-x}={}_n\mathrm{C}_xp^xq^{n-x}\tag{1}\end{eqnarray*} $$

モーメント母関数

$$ \begin{eqnarray*}M_X(t)=(pe^t+q)^n\tag{3}\end{eqnarray*} $$

期待値

$$ E(X) = np $$

分散

$$ \begin{eqnarray*}V(X)=np(1-p)\tag{5}\end{eqnarray*} $$

他の分布との関連性

超幾何学分布を近似する⇒二項分布 二項分布を近似する⇒正規分布、ポアソン分布

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_binomial_distribution.html

幾何分布 (geometric distribution)

超幾何学分布(hypergeometric distribution)

ポアソン分布(posisson distribution)

十分な試行回数または観測数に対して事象の生起確率が極めて小さい場合において,その事象が生起する回数を確率変数Xで表したとき,その確率変数Xが従う確率分布

母数

  • λ: 確率変数Xの範囲内で発生する事象の期待発生回数

確率質量関数

$$ f(x)=\frac{e^{-\lambda}\lambda^x}{x!} $$

略記

$$ X \sim N(\mu, \sigma^2) $$

確率変数Xの範囲

$$ x = 0, 1, 2, ..., \infty $$

モーメント母関数

$$ M_X(t)=e^{\lambda(e^t-1)} $$

期待値

$$ E(X) = \lambda $$

分散

$$ V(X) = \lambda $$

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_poisson_distribution.html

負の二項分布(negative binomial distribution)

連続一様分布 (continuous uniform distribution)

  • 確率変数Xの値に関わらず,確率密度関数が常に一定の値を与える確率分布
  • サイコロの出目の確率分布など
  • 母数は確率変数Xの取り得る最小および最大の値 aおよび b

確率密度関数

$$ \begin{eqnarray*}f(x)=\frac{1}{b-a}\tag{1}\end{eqnarray*} $$

モーメント母関数

$$ TODO $$

期待値

$$ TODO $$

分散

$$ TODO $$

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_continuous_uniform_distribution.html
  • https://data-science.gr.jp/theory/tpd_discrete_uniform_distribution.html

ベータ分布(beta distribution)

ベータ分布 (beta distribution) は連続確率分布のひとつである.順序統計量との関わりが深い.順序統計量とは,ランダムな標本値を昇順に並べ替えたときの一連の標本値の集合のことである.ここで,ベータ分布とは,互いに独立に同一の連続一様分布 U(0, 1) に従う α+β-1 個の確率変数Xi (1< i < α+β-1) において α 番目に小さい確率変数Xα (α番目の順序統計量) が従う確率分布である.

母数

  • α: (>0)
  • b: (>0)

確率密度関数

$$ \begin{eqnarray*}f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1$bb}}{B(\alpha,\beta)}\end{eqnarray*} $$

略記

$$ X \sim Be(α, β) $$

モーメント母関数

$$ \begin{eqnarray*}E(X)=\frac{\alpha}{\alpha+\beta}\end{eqnarray*} $$

期待値

$$ \begin{eqnarray*}E(X)=\frac{\alpha}{\alpha+\beta}\end{eqnarray*} $$

分散

$$ \begin{eqnarray*}V(X)=\frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\end{eqnarray*} $$

ベータ関数

$$ \begin{eqnarray*}B(a,b)=\int_{0}^{1}t^{a-1}(1-t)^{b-1}dt\end{eqnarray*} $$

REFERENCES:

  • https://data-science.gr.jp/theory/tpd_beta_distribution.html
  • https://data-science.gr.jp/theory/tbs_beta_and_gamma_function.html

コーシー分布

$$ f(x)=\dfrac{1}{\pi (1+x^2)} $$

特徴

  • コーシー分布には期待値(平均)は存在しない。
  • 大数の法則は成立しない
  • 分散や標準偏差も存在しない

reference:

  • https://mathtrain.jp/cauchydist

対数正規分布(log normal distribution)

指数分布

TODO

指数分布は連続型確率分布の一つで、機械が故障してから次に故障するまでの期間や、災害が起こってから次に起こるまでの期間のように、次に何かが起こるまでの期間が従う分布です。ある期間に平均して(ラムダ)回起こる現象が、次に起こるまでの期間が指数分布に従うとき、となる確率密度関数は次の式で表されます。は指数分布のパラメータであり、必ず正の値をとります。

REFERENCES:

  • https://bellcurve.jp/statistics/course/8009.html
  • https://mathtrain.jp/expdistribution

正規分布(normal distribution)

偏差 (deviation)

  • 平均が0になるようにデータを変換すること
  • つまりは、原点を平均に変えているということ

$$ d = x - \bar{x} $$

標準化 (standardization)

  • 平均が0、分散(S.D.)が1になるようにデータを変換すること
  • つまりは、原点を平均に変え、x軸の1メモリをS.D.にしているとうこと
  • そのため、zは標準正規分布$N(0,1)$に従う

$$ z = \frac{x - \overline{x}}{s} $$

正規分布 (normal distribution)

  • $\mu$を平均値、を$\sigma$標準偏差とすると、正規分布の確率密度関数(または分布関数)は次となる。

$$ f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2} {2\sigma^2} \right) \hspace{20px} (-\infty < x < \infty) $$

  • 正規分布の単位
    • X軸はS.D.
    • Y軸は相対度数
  • 確率変数$X$が正規分布$N(\mu,\sigma^2)$に従うとき、$aX+b$は正規分布$N(a\mu+b,a^2\sigma^2)$に従う

標準正規分布 (standard normal distribution)

  • 平均が0、分散(標準偏差)が1の正規分布のこと。標準正規分布は以下の式で表される。
  • 不要な平均と分散が式から省略されている

$$ f(x) = \frac{1}{\sqrt{2\pi}} \exp{\left(-\frac{x^2}{2}\right)} \hspace{20px} (-\infty < x < \infty) $$

Z値 (Z-score)

  • 平均から何標準偏差分離れているかを表す指標
  • 下の例だと、平均から2.5標準偏差分離れている

$$ x = 20, \bar{x} = 10, s = 4 \\ z = \frac{x - \overline{x}}{s} \\ z = \frac{10}{4} = 2.5 $$

$\sigma$区間 (68–95–99.7 rule)

用語意味割合
$1\sigma$区間平均を中心とした$-\sigma$から$+\sigma$までの区間68.26%
$1.96\sigma$区間平均を中心とした$-1.96\sigma$から$+1.96\sigma$までの区間95%
$2\sigma$区間平均を中心とした$-2\sigma$から$+2\sigma$までの区間95.44%
$3\sigma$区間平均を中心とした$-3\sigma$から$+3\sigma$までの区間99.73%

一般正規分布

  • $x$ を標準正規分布のデータ、$d$と$\sigma$と$\mu$をそれぞれ一般正規分布のデータ、S.D.、平均と置くと、
    • $d = \sigma \times x + \mu$
  • 平均が$\mu$、S.D.が$\sigma$の正規分布を標準正規分布に戻すには、
    • $z = ( x - \mu) \div \sigma $
  • 平均が$\mu$、S.D.が$\sigma$の正規分布のS.D. 1個分の範囲のデータは
    • $(\mu + 1 \sigma) \leqq z \leqq (\mu + 1 \sigma) $
  • 平均が$\mu$、S.D.が$\sigma$の正規分布のS.D. 2個分の範囲のデータは
    • $(\mu + 2 \sigma) \leqq z \leqq (\mu + 2 \sigma) $

95%区間の算出

  • データxが平均$\mu$、S.D.が$\sigma$の一般正規分布のデータである時、
  • $z = (x - \mu) \div \sigma$という計算をすると、データ$z$は標準正規分布のデータとなる
  • データ$x$が、平均が$\mu$、S.D.が$\sigma$の正規分布に従う場合の95%の信頼区間は次の不等式で求まる

$$ -1.96 \leqq \frac{(x-\mu)}{\sigma} \leqq 1.96 $$

  • 宇宙人の平均身長$\mu$は200cm, そのS.D.は10の一般正規分布のデータの時、
  • $x$は次の範囲内になる(つまり、宇宙人の95%は180cmから220cmの間ぐらいに入る)。
  • $180.4 \leqq x \leqq 219.6$

Terms

用語意味
偏差(deviation)ある集団に属する数値と、その集団の基準値(平均や中央値など)との差
標準化(standardization)平均が0、分散が1となるようにデータを変換すること
正規分布(normal distribution)ガウス分布や誤差分布とも言われる。平均値と標準偏差で求められる
標準正規分布(standard normal distribution)標準偏差が1、平均が0の正規分布
一般正規分布(general normal distribution)標準偏差が1、平均が0ではない正規分布
  • 正規分布は、平均値μと標準偏差σを与えると一種類に決まる。
  • S.D.1個分前後のデータが現れることは月並みに起きる
  • S.D. 2個分を超えるのは19/20なので、そうそう起きない

References:

  • https://en.wikipedia.org/wiki/Normal_distribution
  • https://bellcurve.jp/statistics/glossary/2080.html
  • https://ikuty.com/2018/06/17/normal_distribution/
  • https://ja.wikipedia.org/wiki/%E5%81%8F%E5%B7%AE
  • https://to-kei.net/distribution/normal-distribution/standardization/
  • https://data-science.gr.jp/theory/tbs_standardization.html

正規分布

ガンマ分布 (Gamma distribution)

グンベル分布 (Gumbel distribution)

グンベル極値分布 (Gumbel extreme value distribution)

パレート分布(Pareto distribution)

ワイブル分布(Weibull distribution)

F分布 (F distribution)

T分布 (t distribution)

条件付き確率分布 (conditional probability distribution)

離散型の場合、

$$ P(X=x|Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} $$

分割表(contingency table)

共分散 (covariance)

独立と無相関(indipendent and non-correlation)

確率変数XとYの共分散が0の場合は無相関

$$ Cov(X, Y) = 0 $$

同時確率分布において、あらゆるxとyで次の式が成り立つ時、xとyは互いに独立

$$ f(x, y) = g(x) \cdot h(y) $$

つまり、$X \cap Y = \phi$ということ

相関と独立の比較

  • 独立 ⇒ 無相関
  • 独立 > 無相関

同時確率分布 (joint probability distribution)

周辺確率分布 (Marginal probability distribution)

多次元正規分布 (multivariate normal distribution)

再生性(reproductive)

たたみこみの結果として全く別の分布ではなく、再び同一種類の確率分布(確率分布族)が得られる⇒その確率分布族は再生的(reproductive)という

ref 統計の赤本

同じ確率分布を持つ2つの独立な確率変数の和は同じ確率分布を持つこと。再生性を持つ確率分布として、二項分布、ポアソン分布、正規分布などがある。

ref https://bellcurve.jp/statistics/glossary/1811.html

特に正規分布においては再生的であることが知られており、次が成り立つ。

  • $X_1 + X_2 + \dots + X_n$は$N(n\mu, n\sigma^2)$に従う
  • $\bar{X}$は$N(\mu, \sigma^2/n)$に従う

つまり、ある標本と標本平均は特定の母数を持った正規分布に従う。

推測統計の目的

  • 母集団 (population) から標本 (sample) を無作為に抽出し、
  • その標本によって得られた標本平均や不偏分散などの統計量を使って、
  • 母集団の母数(母平均や母分散)を検定し推定すること

調査方法

調査方法
標本調査(sampling)母集団の標本を使って調べること
全数調査(complete enumeration)/悉皆調査母集団を全て調べること。例、センサス(Census)

推定と検定

  • 推測統計 (inferential statistics)
    • 推定(estimation)
      • 点推定(point estimation)
      • 区間推定(interval estimation)
    • 検定(test)
      • 仮説検定(hypothesis testing)
用語意味
推定(estimation)標本から判断して、具体的な母数の値や区間を予測する
検定(test)母集団について述べた異なる2つの仮説のうちどちらかを採用すること

集団

用語意味
母集団 (population)調査や研究の対象となるものの全体。
正規母集団(normal population)母集団が正規分布しているもの
母数(parameter)母集団についての統計量
標本 (sample)母集団から抽出したデータの集まりのこと

抽出

用語意味
抽出(sampling)標本を抜き出すこと
無作為 (random)作為を加えないこと。任意であること。
無作為抽出 (ramdom sampling)無作為な選択方法によって選んだ標本

平均 (mean)

種類意味
母平均 (population mean)$\mu $
標本平均 (sample mean)$\bar{x} $

REFERENCES:

  • https://bellcurve.jp/statistics/glossary/1421.html
  • http://www.qmss.jp/qmss/glossary/stat-glossary-je.htm
  • http://www.ner.takushoku-u.ac.jp/masano/class_material/waseda/keiryo/5_infer_stat.html
  • https://bellcurve.jp/statistics/course/8005.html

母集団(population)

集団
ユニバース (universe)母集団の集合
母集団 (population)真値の集合
標本 (sample)測定値の集合
標本平均の集合(sample means)標本平均の集合

標本 (sample)

集団
標本 (sample/data sample)測定値(標本点)の集合
標本点 (sample point/sample unit)測定値(データ)のこと

標本の平均と標本平均

平均意味
標本平均とある標本の平均。$\overline{X}$
標本平均の平均ある複数個の標本平均の平均。$\overline{X_{\overline{x}}}$

標本の大きさ

標本定義
大標本 (large sample)n >= 30
小標本 (small sample)n < 30

標本数と標本サイズ

用語意味
標本サイズ(sample size; $n$)標本に含まれている観測値の個数(標本の大きさ=intra-sample)
標本数(number of samples)標本の数(=inter-sample)

REFERENCES:

  • https://www.khanacademy.org/math/statistics-probability/sampling-distributions-library/what-is-a-sampling-distribution/v/introduction-to-sampling-distributions?modal=1
  • http://www.stat.yale.edu/Courses/1997-98/101/sampmn.htm
  • https://mathwords.net/hyouhonheikin#i-6

標本平均(sample mean)

ある母集団(正規分布)に従う確率変数がある。
この$X$は標本点である。
理想的には1つの値だが、その変域はばらつきがあり、確率によって決まる。

$$ X \sim N(\mu, \sigma^2) $$

その母集団からランダムサンプリングして、複数の$X$を取得する。
その確率変数を取得した場合、ある標本ができる。
それを$X$とする(便宜上形式的に同じ$X$を使う)。

$$ X = \{X_1, X_2, ... ,X_n\} $$

無論それぞれの標本点($X_i$)は母集団の分布に従う。

$$ X_i \sim N(\mu, \sigma^2) $$

大数の法則により、その標本点は母平均($\mu$)に収束する

$$ E(X_i) \rightarrow \mu $$

その平均(標本平均)は次になる。
無論標本平均も確率変数となる。

$$ \bar{X} = \{X_1, X_2, ... ,X_n\}/n $$

大数の法則により、その標本平均は母平均($\mu$)に収束する

$$ \bar{X} \rightarrow \mu $$

その標本平均の期待値も、母平均になる。

$$ E(\bar{X}) = \mu $$

その標本平均の分散は次になる。

$$ V(\bar{X}) = \sigma^2/n $$

中心極限定理より、標本平均は次の正規分布に従う。

$$ \bar{X} \sim N(\mu, \sigma^2) $$

この標本平均が従う正規分布を標本分布(or 標本平均の分布)という

母数 (parameter)

母集団分布を決定する引数のこと

例) 母正規分布の平均と分散

$$ X \sim N(\mu, \sigma^2) $$

母数と統計量の違い

用語対象の集団
母数(parameter)母集団
統計量(statistics)標本

母数の表記

推定する母数、母平均、墓分散、母相関係数などを一般化して、$\theta_k$と表記する。
その推定量も$\hat{\theta_k}$と表記する

抽出(sampling)

全体から部分を抽出すること

ランダムサンプリング(random sampling)

母集団の中からランダムに標本を抽出する方法のこと

ref https://www.macromill.com/research-words/random-sampling.html

単純ランダムサンプリング(simple random sampling)

単純無作為抽出とは、無作為抽出(ランダムサンプリング)の中でもっとも基本的な抽出方法である。母集団のすべての要素を等確率で抽出し、調査対象とする。

ref https://www.macromill.com/research-words/simple-random-sampling.html

復元抽出

抽出方法意味
復元抽出(sampling with replacement)抽出結果を母集団に戻す
非復元抽出(sampling without replacement)抽出結果を母集団に戻さない

抽出の種類

種類意味
単純無作為抽出法 (simple random sampling)母集団から同確率で無作為に抽出。どの個体が選択される際も等確率の必要あり。
系統抽出法 (systematic sampling)全要素を採番し等間隔で抽出。
層化無作為抽出 (stratified sampling)母集団を複数の層に分割し各層から無作為に抽出。層内が均質なら誤差分散は小。
多段抽出法 (multi-stage sampling)抽出単位を何段階かに分けて抽出。段数が増えると精度は低下する。
クラスター抽出法 (cluster sampling)網羅的に小集団(クラスター)に分割しその成員全てを抽出。

REFERENCES:

  • https://notta55.hatenablog.com/entry/2014/10/30/160750

分布(distribution)

分布意味
母分布(population distribution)真値(母集団の)分布
標本分布(sample distribution)母集団から抽出した(複数の)測定値の分布
標本平均の分布 (sampling distribution of means)(複数の)標本の(それぞれの)平均値(代表値)の分布

標本分布についての注意

  • 上の表は直訳なので、注意が必要
  • 日本語だとsample distributionを標本分布にしたくなるが、間違い。
  • 教科書の定義的には、sampling distributionが標本分布に当たる。
  • また、標本分布は標本の分布ではなく、ある統計量tの標本分布のこと。
  • 例えば、ある複数の標本のそのそれぞれの平均の集合は集めるとある分布をなす。その分布は標本分布と呼ばれる。
  • つまり、ある統計量tの分布が標本分布
  • なぜ標本の分布を標本分布と訳さなかったかというと、それらの測定値は母集団の分布に従う分布だからだと思う
従う分布属する集合
測定値母集団分布標本
推定値ある統計量tの分布(標本分布)統計量tの集合

つまり,測定値は標本の分布に従うのではなく、母集団の分布に従う

MEMO:

ある標本$X$は複数のデータをもつ。

$$ X = \{X_1, X_2, \cdots X_n \} $$

無論それぞれの標本のデータ($X_i$)も確率変数となる。
例えば、自然数とする。

$$ X_i = \{1, 2, \cdots n\} $$

なぜなら、母集団から取得したデータはある範囲の分布(確率変数と確率)を持つから。
例えば、正規分布。

$$ X_i \sim N(\mu, \sigma) $$

その標本のある統計量tは次となる。 添字のtは意味はない

$$ X_t = t(X_1, X_2, \cdots, X_n) $$

例えば標本平均の場合は次となる。

$$ \bar{X} = (X_1 + X_2 + \cdots + X_n) / n $$

この標本平均は一意に決まらない(ばらつきがある)。
この標本平均の分布が標本平均。

REFERENCES:

  • https://www.khanacademy.org/math/statistics-probability/sampling-distributions-library/what-is-a-sampling-distribution/v/introduction-to-sampling-distributions?modal=1
  • http://www.stat.yale.edu/Courses/1997-98/101/sampmn.htm
  • https://mathwords.net/hyouhonheikin#i-6
  • http://onlinestatbook.com/2/sampling_distributions/samp_dist_mean.html

分散(Variance)と標準偏差(S.D.)

統計量意味
平均(mean, $\bar{x}$ )(データの合計) / (データ数)
偏差(deviation)(データの数値) - (平均値)
偏差平方和(sum of squares of deviation)偏差の和
偏差積(products of deviation)(X - Xの平均値) x (Y - Yの平均値)
偏差積和(sum of products of deviation)偏差積の和
平均偏差(mean deviation)(偏差平方和) / (データ数)
分散(variance, $s^2$)(偏差の二乗の合計) / (データ数)
標準偏差(standard deviation, S.D., $s$)分散の平方根。偏差の二乗平均
標準化(Standardization)(偏差) / (標準偏差)
標準化変量, Z値(Z-score, $z$)(ある値 - 平均) / (標準偏差)
平均変動(Coefficient of Variation, C.V.)(標準偏差) / (平均)
偏差値(deviation)(標準化データ x 10) +50
準標準化(studentization)(平均の標本の平均 - 母平均) / (母標準誤差)
順標準化変量, T値(T-score, $t$)(平均の標本の平均 - 母平均) / (不偏標準誤差)
共分散(covariance)(偏差積和) / (データ数)

NOTE:

  • 偏差の合計は0
  • 標準化すると平均が0、分散が1となる
  • 標準化すると 無次元量(無名数)になる。つまり、単位が消える
  • Z値はある値が平均から何標準偏差分離れているかを表す指標

統計量の分類

統計量意味
要約統計量(記述統計量, descriptive statistic)標本の分布の特徴を代表的に(要約して)表す統計学上の値
検定統計量 (test statistic)統計学的仮説検定に際して用いる単変量の統計量
順序統計量 (Order statistic)標本のすべての観測値をその大きさの順に小さい方から並べたもの

標準得点(standard score)

  • Z得点(z値)
  • 偏差値
  • 偏差IQなど

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%BE%97%E7%82%B9
  • https://ja.wikipedia.org/wiki/%E6%A4%9C%E5%AE%9A%E7%B5%B1%E8%A8%88%E9%87%8Fhttps://ja.wikipedia.org/wiki/%E6%A4%9C%E5%AE%9A%E7%B5%B1%E8%A8%88%E9%87%8F
  • https://bellcurve.jp/statistics/course/4317.html
  • https://ja.wikipedia.org/wiki/%E6%9C%80%E9%A0%BB%E5%80%A4

統計量

標本データに目的に応じた統計学的なアルゴリズム(関数)を適用し得た、データの特徴を要約した数値

ref https://ja.wikipedia.org/wiki/%E7%B5%B1%E8%A8%88%E9%87%8F

$$ S \subset P \\ t = f(S)
$$

  • Pは母集団
  • Sはサンプル
  • fは統計量を出すための関数
  • tは統計量

パラメトリック(parametric)とノンパラメトリック(non-parametric)

パラメトリック

事前に母集団の分布が、ある確率分布であるとわかっているとき、パラメータがわかれば、母集団の分布がどのようなものか把握することができます。これが、パラメトリックの場合です。

ノンパラメトリック

一方、母集団の分布が事前にはわからず、いくつかのパラメータで母集団分布を決めることができないのが、ノンパラメトリックの場合です。

REFERENCES:

  • https://toukeigaku-jouhou.info/2018/02/24/parametric-nonparametric/

独立同分布(independent and identically distributed; IID)

  • 独立であること
    • サンプルを偏りなく母集団から選んだこと
    • さもなければ、サンプルの間に相関がある)
  • 同分布であること
    • サンプルが母集団のサブセットであること

REFERENCES:

  • https://bellcurve.jp/statistics/course/8543.html
  • https://to-kei.net/basic/central-limit-theorem/
  • http://web.econ.keio.ac.jp/staff/bessho/lecture/06/econome/060421prob3.pdf

大数の法則(Law of Large Numbers)

  • サンプルサイズnが十分に大きく、観測値がIIDであれば、標本平均は高い確率で母平均に収束する
  • 例) サイコロの出目の平均。サイコロを多くふるほど、母平均(3.5)に近づく

$$ \bar{X} \sim \mu $$

つまり、元の確率分布の平均を$\mu$、その分布から取られたn個の観測値の平均を$\bar{X_n}$とすると、任意の定数$\epsilon$に対して次が言える。

$$ P(|\bar{X_n} - \mu| \leq \epsilon) \rightarrow 1 \space (n \rightarrow \infty) $$

REFERENCES:

  • https://bellcurve.jp/statistics/course/8543.html
  • https://to-kei.net/basic/central-limit-theorem/
  • http://web.econ.keio.ac.jp/staff/bessho/lecture/06/econome/060421prob3.pdf

中心極限定理(Central limit theorem; CLT)

  • サンプルサイズnが十分に大きく、観測値がIIDであれば、標本平均の分布は正規分布に近似される
  • 即ち、標本平均は正規分布に従う。また、分散は母集団分布より$\frac{1}{n}$だけ小さくなる。

$$ \bar{X} \sim N(\mu, \frac{\sigma}{n}) $$

NOTE:

  • 標本平均の分布の意味は、母集団から取得した複数の標本のそれぞれの平均の分布のこと

REFERENCES:

  • https://bellcurve.jp/statistics/course/8543.html
  • https://to-kei.net/basic/central-limit-theorem/
  • http://web.econ.keio.ac.jp/staff/bessho/lecture/06/econome/060421prob3.pdf

漸近的(asymptotic)

nが十分大きいときに成り立つこと(大数の法則など)

$$ n \rightarrow \infty $$

誤差 (error)

  • 測定値に付随する、ある正規分布に従う確率変数のこと
  • 測定値にばらつきをもたらすもの

つまり、ある母集団に従う、全ての標本点$X_i$は、真値($\mu$)とある誤差($e_i$)の合計から成る

$$ X_i = \mu + e_i $$

別の言い方をすると、誤差($\epsilon$)は測定値(M)から真値(T)を引いたもの

$$ \mathcal{\epsilon} = M - T $$

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E8%AA%A4%E5%B7%AE
  • https://dora.bk.tsukuba.ac.jp/~takeuchi/?%E3%81%AF%E3%81%98%E3%82%81%E3%81%A6%E3%81%AE%E8%AA%A4%E5%B7%AE%E8%AB%96

カイ二乗分布(Chi-squared distribution)

標準正規分布$N(0, 1)$に従うそれぞれ独立な$Z_1^2 + Z_2^2 + \cdots + Z_n^2$の 二乗和を自由度$k$カイ二乗分布という。

$$ \chi^2 = Z_1^2 + Z_2^2 + \cdots + Z_n^2 $$

略記は

$$ \chi^2(k) $$

T分布(Student's T-distribution)

F分布(F-distribution)

分布は、自由度が$k_1$、$k_2$のカイ二乗分布$\chi_1 \sim \chi^2(k_1)$と$\chi_2 \sim \chi^2(k_2)$が互いに独立である場合に、次の式から算出されるFが従う確率分布のこと

$$ F = \frac{\chi_1^2/k_1}{\chi_2^2/k_2} $$

この時、Fが従う確率分布を自由度($k_1, k_2$)のF分布という。

略記では、

$$ F(k_1, k_2) $$

フィッシャーのZ変換

ref https://bellcurve.jp/statistics/course/9929.html

自由度 (degree of freedom)

標準正規分布 (standard normal distribution)

$$ Z = \frac{X - \mu}{\sigma} $$

Zについて

  • 無次元量(単位は無い)
  • 0から何S.D.分離れているかを示している

推定値(estimating)

代表値と推定値

標本定義
代表値 (average)集合の特徴を縮約したもの
推定値 (estimating value)母集団の性質を縮約した統計量の値
統計量(Statistic)母集団の性質を縮約した統計量のこと
推定量(Estimate)標本から母集団の性質を推定した統計量のこと

母数

統計量
母平均$\mu = \frac{\sum_{i = 1}^n {x_i}}{n}$
母分散$\sigma^2 = \frac{\sum_{i = 1}^n {(x_i - \mu)^2}}{n}$
母標準偏差$\sigma = \sqrt{\frac{\sum_{i = 1}^n {(x_i - \mu)^2}}{n}}$
  • なお、母集団に関する統計量は、
  • $x_i$は全数調査による観測値とする
  • よって、無限大(n=全数)の場合は計算不可

標本の統計量

統計量
標本平均$\overline{x} = \frac{\sum_{i = 1}^n {x_i}}{n} = \mu$
標本分散$s^2 = \frac{\sum_{i = 1}^n {(x_i - \overline{x})^2}}{n}$
標本標準偏差$s= \sqrt{\frac{\sum_{i = 1}^n {(x_i - \overline{x})^2}}{n}}$
  • 標本分散は一致推定量ではあるものの不偏推定量ではない
  • つまり、nが十分に大きくない場合には標本分散の期待値は母分散に一致せず、母分散より小さくなります
  • そこで不平推定量を用いる

母集団の不偏推定量(標本から母数を推定した推定量)

  • 不偏推定量(Unbiased quantitative)
    • 不偏分散は標本分散と違い、一致性と不偏性をもつ
統計量
不偏平均$\hat{\mu} = \overline{x}$
不偏分散(unbiased estimate of variance)$\hat{s^2} = \frac{\sum_{i = 1}^n {(x_i - \overline{x})^2}}{n-1}$
不偏標準偏差$\hat{s} = \sqrt{\frac{\sum_{i = 1}^n {(x_i - \overline{x})^2}}{n - 1}}$
  • 分母のn-1の意味は、標本のばらつき =< 母集団のばらつき
    • ばらつきは分散とS.D.のこと
    • 平均以外は分母をn-1する(自由度を-1)
  • 大標本(x>30)のときはn-1を気にする必要はない
  • 母平均の不偏推定量$\hat{\mu}$は標本平均の$\overline{x}$

標本平均の分布から母数の推定量

統計量
標本平均の分布$N(\mu, \frac{\sigma^2}{n})$
標本平均の分布の平均$\bar{\bar{X}} = \bar{X_{\bar{X}}} = E(\bar{X})= \mu$
誤差分散$\sigma_{\overline{x}}^2 = \frac{\sigma^2}{n}$
標準誤差$\sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}}$
標本誤差分散$s_{\overline{x}}^2 = \frac{s^2}{n}$
標本標準誤差$s_{\overline{x}} = \frac{s}{\sqrt{n}}$
不偏誤差分散$\hat{\sigma_{\overline{x}}^2} = \frac{\sigma^2}{n} = \frac{s}{n-1}$
不偏標準誤差$\hat{\sigma_{\overline{x}}} = \frac{\sigma}{\sqrt{n}} = \frac{s}{\sqrt{n-1}}$
  • なぜ標本平均の分布からの母数の推定が必要になるか?
    • 標本平均$\overline{X}$から母平均$\mu$を推定する場合に、誤差が問題となるから
  • 標本サイズを4倍にすれば標準誤差は半分になる
  • 標本平均の分布は正規分布になる
    • 例え母集団が正規分布でなくてもOK
    • see 中心極限定理

標準偏差と標準誤差

名前意味
分散標本分布に対する分散
標準偏差(Standard deviation; S.D.)標本分布(測定量)に対する標準偏差
誤差分散標本平均の分布に対する分散
標準誤差(standard error; SE)標本平均の分布(推定量)に対する標準偏差
  • 標準誤差は推定量の標準偏差のこと
  • つまり、推定量のばらつき(=精度)を表す
  • 推定量は、あくまで標本から推定した統計量であり、
  • 実際の母集団の統計量とは多少の誤差を含む。
  • そこで標準誤差を使い、標本の代表値(一般的にはmean)の集合である標本平均の分布から推定量の誤差を出す。
  • 他方、標準偏差は母集団から得られた個々のデータ(測定値)のばらつき

標準化変量と準標準化変量

名前意味
標準化変量あるデータが全体の中でどれくらいの位置にあるのかを示す値
準標準化変量T分布での標準化変量

標準化変量

名前
標本の標準化変量(Z値)(A)
標本平均の標準化変量(Z値)(B)
標本平均の準標準化変量(T値)(C)

$$ z_i = \frac{x_i-\mu}{\sigma} \tag{A} $$

$$ z_{\overline{x_i}} = \frac{\overline{x_i}-\mu_{\overline{x}}}{\sigma_{\overline{x}}} = \frac{\overline{x_i}-\mu_{\overline{x}}}{\frac{\sigma}{\sqrt{n}}} \tag{B} $$

$$ t_{\overline{x}} = \frac{\overline{x}-\mu}{\hat{\sigma_{\overline{x}}}} = \frac{\overline{x}-\mu}{\frac{\hat{\sigma}}{\sqrt{n}}} = \frac{\overline{x}-\mu}{\frac{s}{\sqrt{n-1}}} \tag{C} $$

不偏誤差分散と不偏標準誤差

  • 標本平均の分布から母数の推定には、母集団のS.D.や分散が必要
  • だがそれはわからないので、標本から母集団の推定に使用する不偏推定の値を利用する

分散と不偏分散

種類意味
分散測定値のばらつきを表す
不偏分散標本から母集団の分散を推定するために用いる

REFERENCES:

  • http://heycere.com/statistics/interval-estimation-for-population-mean-case-when-population-variance-is-unknown-and-large-samples/
  • https://best-biostatistics.com/summary/sd-se-chigai.html
  • http://web.econ.keio.ac.jp/staff/bessho/lecture/06/econome/060421prob3.pdf
  • http://makemeanalyst.com/observational-studies-and-experiments/population-distribution-sample-distribution-and-sampling-distribution/
  • https://www.youtube.com/watch?v=Ua4rVck2hzI&list=PLdyM_iZEFdcvCM_fUosLvdx5hgZT2x8zt&index=5
  • https://en.wikipedia.org/wiki/Sampling_distribution
  • https://www.jcu.edu.au/__data/assets/pdf_file/0008/115478/Basic-Statistics-6_Sample-vs-Population-Distributions.pdf
  • https://to-kei.net/estimator/unbiasedness/
  • https://toukeigaku-jouhou.info/2018/02/17/difference-between-estimator-and-estimate/
  • https://bellcurve.jp/statistics/course/8616.html
  • https://to-kei.net/basic/glossary/variance/#i-6

点推定(point estimation)

点推定の手順

  1. モーメント法
  2. 最尤法

区間推定(interval estimation)

真のパラメータの値が入る確率がある値1-α以上と保証された区間[L, U]を求めるもので、最初から誤差があることを認めた推定法

$$ P(L \leq \mu \leq U) \geq 1 - \alpha $$

なお、LとUは$X_1, X_2, \cdots X_n$を引数にとる関数

  • 例) このカブトムシの真の大きさは95%の確率で10cm ~ 20cmの間に入る
用語意味
信頼係数(Confidence coefficient)/信頼水準/信頼度95%
信頼区間(Confidential interval; CI)10cm ~ 20cm
信頼限界(Confidential Limit)10cm, 20cmなどの信頼区間の両側の値のこと
上限信頼限界(Upper Confidential Limit)20cm
下限信頼限界(Lower Confidential Limit)10cm

推定フロー(estimation flow)

1標本

// 母数の推定のフロー
if ("母分散が未知") {
    if ("大評本") {
      // 正規分布+標本標準誤差
      // $s^2 = \sigma^2$のため
    } else if ("小標本") {
      // T分布+不偏誤差分散
    }
} else if ("母分散が既知") {
  // 正規分布+母標準誤差
  // $\bar{X} = \mu$なので、それと母分散を使って、Z値を出せる
}

2標本問題(two-sample problem)

男子の身長と女子の身長など、明らかに異なるに種類の標本による、2母集団の比較を扱う問題

2つの母集団にそれぞれ属する確率変数XとYがある。
例えば、男子の身長(X)と女子の身長(Y)など。

$$ X \sim N(\mu_1, \sigma_1^2) \\ Y \sim N(\mu_2, \sigma_2^2) $$

それぞれの標本平均を次とする。

$$ \bar{X} = \frac{1}{m} (X_1 + X_2 + \cdots +X_m) \\ \bar{Y} = \frac{1}{n} (Y_1 + Y_2 + \cdots +Y_n) $$

if ("2つの分散が既知の場合") {
  // 差の標準正規分布を作る
} else if ("2つの分散が未知だが等しい時")
  // 未知の分散を合併した分散を使用して推定する
  // 2標本T検定量を使用する
} else if ("2つの分散が未知であり等しいとは限らない時")
  // ウェルチの近似法を使う
}

推定の基準

性質意味
不偏性(unbiasedness)偏っていないこと。その推定量が平均的に過大にも過小にも母数を推定しておらず、推定量の期待値が母数に等しいこと
一致性(Consistency)データが増えれば推測が真値に近づいてくこと。サンプルサイズが無限大になった時に、推定量が母数に一致すること
有効性(Efficiency)推測の誤差がほとんど出ないこと。ある母数の推定量との比較において、その推定量の分散がもっとも小さいこと
頑健性(Robustness)影響を受けにくいこと(外れ値が出にくいとか、非対称だとかがない)
  • 例:
    • 一致性がある ⇒ Nが十分に大きい場合は、標本分散の期待値は母分散に一致する
    • 不偏性がない ⇒ Nが十分に大きくない場合は、標本分散の期待値は母分散に一致しない
  • ちなみに、標本分散は一致性はあるが、不偏性がない
  • そこで、Nが十分大きくない場合は、不偏性のある推定量(不偏分散など)を使う

推定量の種類

推定量意味
不偏推定量 (Unbiased Estimate)偏りがない推定量のこと
一致推定量(Consistent Estimate)正しくなっていく推定量のこと(サンプル数を増やすと母数に近づく、大数の法則から得られたもの)
有効推定量(Efficiency Estimate)誤差が少ない推定量のこと

確率分布のグラフでいうと、

  • 不偏性がない: 推定した山の位置がずれている
  • 一致性がない: 推定した山の中心がずれている
  • 有効性がない: 推定した山に変なばらつきがある

Accuracy vs. Precision vs. Bias

Accuracy vs. Precision

Precision vs. Bias

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E7%8B%AC%E7%AB%8B%E5%90%8C%E5%88%86%E5%B8%83
  • https://www.practmath.com/estimate/
  • https://eigopedia.com/%E3%80%8C%E2%97%AF%E2%97%AF%E3%80%8D%E3%81%A8%E3%80%8C%E2%97%AF%E2%97%AF%E3%80%8D%E3%81%AE%E9%81%95%E3%81%84%E3%81%AF/%E3%80%8Caccuracy%E3%80%8D%E3%81%A8%E3%80%8Cprecision%E3%80%8D%E3%81%AB%E9%81%95%E3%81%84%E3%81%AF%E3%81%82%E3%82%8A%E3%81%BE%E3%81%99%E3%81%8B%EF%BC%9F

仮説検定(hypothesis testing)

仮説検定は母集団についての仮説(命題)の優位性を標本に基づいて検証すること。仮説の下で期待するものと観測した結果との違いを、その差が単に偶然なのか否かを確立の基準で評価する。

有意(significant)

「統計学的に有意」とは「仮説」と「実際に観察された結果」との差が誤差では済まされないこと

ref https://www.yodosha.co.jp/jikkenigaku/statistics/q1.html

有意水準 (significance level) と棄却(reject)

水準意味
有意水準(significance level)帰無仮説を棄却するための基準となる確率
棄却(reject)仮説を捨てること

仮説(hypothesis)

仮説意味
帰無仮説(null hypothesis)最初に立てる仮説、$H_0$
対立仮説(alternative hypothesis)帰無仮説に対立する、本来証明したい仮説、$H_1$

P値/有意確率

帰無仮説が正しいとした仮定とき、観測した事象よりも極端なことが起こる確率

誤り(error)

誤り意味
第一種の誤り(error of the first kind)/producer's risk$H_0$が正しいときに、これを棄却する誤り
第二種の誤り(error of the second kind)/consumer's risk$H_0$が間違っているのに、これを採用する誤り

例)

  • 第一種の誤り: 刑事訴訟で無罪を有罪にする誤り
  • 第二種の誤り: 刑事訴訟で有罪を無罪にする誤り

背理法

仮説検定は背理法を使っている。つまり、$H_1$が本来主張したい仮説で、それを排除するのが$H_0$、この$H_0$を棄却することによって、$H_1$が矛盾しないこと(証明ではない)を主張する

REFERENCES:

  • https://bellcurve.jp/statistics/course/9311.html

T検定

$\chi^2$検定

ウェルチ検定

一般化線型回帰

リンク関数

一般線形化モデル

ロジスティック回帰

サポートベクターマシン回帰

ロジット

train/validate/test

データセット用途
train学習用
validateハイパーパラメータ調整用
test精度評価用

前処理

入力データをスクリーニングすること

Oversampling

不均衡データのための処理

REFERENCES:

  • https://takuti.me/ja/note/adjusting-for-oversampling-and-undersampling/

Undersampling

不均衡データのための処理

REFERENCES:

  • https://takuti.me/ja/note/adjusting-for-oversampling-and-undersampling/

GIGO (Garbage in, garbage out)

『無意味なデータ』をコンピュータに入力すると『無意味な結果』が返されること

REFERENCES:

  • https://ja.wikipedia.org/wiki/Garbage_in,_garbage_ou://ja.wikipedia.org/wiki/Garbage_in,_garbage_out1

mixup

2つの訓練サンプルのペアを混合して新たな訓練サンプルを作成するdata augmentation手法

$$ X = \lambda X_1 + (1 - \lambda) X_2 \\ y = \lambda y_1 + (1 - \lambda) y_2 $$

なお、$\lambda$はハイパーパラメータαをもつベータ分布から混合比率を得る

REFERENCES:

  • https://qiita.com/yu4u/items/70aa007346ec73b7ff05
  • https://www.slideshare.net/AkihiroFujii2/mixup
  • https://docs.fast.ai/callbacks.mixup.html#Mixup-data-augmentation

目的

REFERENCES:

  • https://www.slideshare.net/lewuathe/auto-encoder-v2

学習(Leaning)

  • 教師あり機械学習 (Supervised learning)
    • トレインと正解ラベル
  • 教師なし機械学習 (Unsupervised learning)
    • トレインのみ
  • 強化学習 (Reinforcement learning)
  • 転移学習 (Transfer learning)

転移学習とファインチューニング

転移学習(Transfer Learning)とは、ある領域で学習したこと(学習済みモデル)を別の領域に役立たせ、効率的に学習させる方法です。

転移学習を行うメリット

  • 学習時間を短縮できる
  • データが少なくても高い精度を出せる

転移学習とファインチューニングの違い

REFERENCES:

  • https://udemy.benesse.co.jp/ai/transfer-learning.html
  • https://github.com/deepsense-ai/Keras-PyTorch-AvP-transfer-learning

確率的勾配降下法

ミニバッチ学習

線形分離可能性

交差検証

ハイパーパラメータ

ハイパーパラメータとは、機械学習アルゴリズムの挙動を制御するパラメータのこと

inner-class/intra-class

分野inner-classinter-class
ネコと人などの分類特徴の分布が狭い(ある特徴で十分のため)特徴の分布が広い(クラスは別々のモノのため)
FGVC特徴の分布が広い(色々な特徴が必要なため)特徴の分布が狭い(クラスは似たモノのため)

The 1 cycle policy

learning rateをイテレーションの間で何度も大きくしたり小さくしたり変化させる学習方法

fastaiではLearnerで実装されている

REFERENCES:

  • http://37ma5ras.blogspot.com/2018/05/2018-1cycle-policy.html
  • https://sgugger.github.io/the-1cycle-policy.html

半教師あり学習 (semi supervised learning)

教師データからモデルを作り、そのモデルで教師なしデータのラベリングをしてその疑似ラベル(pseudo-label)を使って学習すること

Loss(損失)

$$ l = loss(y, t) $$

  • lossは誤差関数
  • y: モデルの出力結果
  • t: 正解ラベル
  • l: 伝搬させる誤差

誤差関数の分類

REFERENCES:

  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

クロスエントロピー誤差

  • 本当は場合分けしたほうがわかりやすい
  • $y_i$ は正解ラベルで値域は0か1
  • なので、正解の場合の計算は赤の項が使われ、
  • なので、不正解の場合の計算は緑の項が使わる。
  • $\tilde{y_i}$ は予測の出力値
  • $\tilde{y_i}$ は確率なので、値域は0~1まで
  • ログを取っているので、$\tilde{y_i}$ の確率100%のときは 0
  • ログを取っているので、$\tilde{y_i}$ の確率0%のときは マイナス無限

なので次のようになる

-教師ラベル1教師ラベル0
予測確率100%誤差=0誤差=無限大
予測確率0%誤差=無限大誤差=0

対数のグラフ

別の例

$$ {E = - \sum_{k=1}^n t_k \log x_k^n } $$

  • ユニットからの出力$x_k^n$は確率(活性化関数の出力が確率)と仮定すると、値域は1~0。
  • つまり、logからの出力は$log(1) =0$で、$log(0) = - \infty$となる
  • よって、確率が最大の時に誤差は0になり、最小の時に無限大になる
  • それを正解ラベルで重み付けしているので、対象のラベルについての重さを調整している

例)

※ $z_n^4$は誤差関数を適用する前の最終層

$$ {E = - \sum_{k=1}^3 t_k \log z_k^4 = - (t_1 \log z_1^4 + t_2 \log z_2^4 + t_3 \log z_3^4)} $$

  • $t$は教師ラベル
  • 1hot表現の場合はtの値域は1~0まで、

ソフトマックス関数

実際のモデル

  • 要は単純な確率の計算
  • expは指数なので、入力xの大きさに比例して大きくなる
  • 指数なので、-100をxに入れたとしてもプラスになる
  • なので、0より大きな数字に変換している
  • マイナスがないので、確率として解釈できる
  • 分母ではそれの総和をとるが、マイナスがないので全体と理解できる
  • 結果、ある $exp(x_i)$の起こりやすさとも解釈できる
  • 複数クラスに対応可能なので、ニューラルネットワークの最後の層に組み込まれがち

対数ソフトマックス関数

  • 理由は以下参照
  • https://blog.feedly.com/tricks-of-the-trade-logsumexp/

ソフトマックス (softmax)

$$ \displaystyle s(z)=\frac{e^z}{\sum_{j}e^{z_j}} $$

  • 他クラス分類に使用される
  • 指数なので、x(ユニット)にマイナスが来ても加算でOK
  • 多値分類(3値以上)で使用される

ソフトマックス関数の微分

$$ \dfrac{\partial y_i}{\partial x_j}= \begin{cases}y_i(1-y_i)&i=j\\ -y_iy_j&i\neq j\end{cases} $$

Softmax Loss

$$ {y_k = \frac{\exp(a_k)}{\sum_{i=1}^n \exp(a_i)}, \\ L = -\sum_k t_k \log(y_k) } $$

  • ニューラルネットワークの出力: a
  • Softmaxの出力; y
  • 教師データ: t
  • Loss: L

REFERENCES:

  • https://qiita.com/Yoko303/items/09efd10161d0a764833d

Center Loss

TODO

AM Softmax Loss

TODO

Focal loss

$$ {{\rm FL}(p_t) = -(1 - p_t) ^ \gamma {\rm log} (p_t).} $$

$\gamma$はパラメーター

REFERENCES:

  • https://qiita.com/agatan/items/53fe8d21f2147b0ac982
  • https://qiita.com/celaeno42/items/7efdbb1491406f4bde96

Exponential loss

TODO

REFERENCES:

  • https://en.wikipedia.org/wiki/Loss_functions_for_classification
  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

Hinge loss

TODO

REFERENCES:

  • https://en.wikipedia.org/wiki/Loss_functions_for_classification
  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

KL Divergence/Relative Entropy

TODO

REFERENCES:

  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

SoftPlus

MSE, 平均二乗誤差、二乗和誤差 (Mean square error; MSE)、分散

ある値$c$に対して,各データ値$x_i$とすると、

$$ \text{MSE}(c) = \frac{1}{n} \sum_{i=1}^n (x_i-c)^2 $$

回帰(regression)の分類に使う
機械学習では(正解データ - 予測値)となる

別の例

$X_i$は標本データ $\bar{x}$は標本データの平均値 いわゆる分散

$$ MSE(x) = \frac{1}{n} \sum_{n=1}^n (x_i - \bar{x})^2 $$

分散を最小にする場合は、最小平均二乗誤差(MMSE:Minimum Mean Square Error)とも

REFERENCES:

  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0
  • http://wild-data-chase.com/index.php/2018/12/23/post-270/

SSE (Error Sum of Squares), 二乗和誤差

二乗和誤差

NOTE:

  • 二乗和誤差と呼ばれる場合は、
  • 微分ように1/2の係数をつける場合が多い

$$ SSE= \frac{1}{2}\sum_{k}{(y_k-t_k)^2} $$

別の例

$$ E= \frac{1}{2}\sum_{k}{(y_k-t_k)^2} $$

  • tは正解ラベル
  • yモデルから出力された値

REFERENCES:

  • https://hlab.stanford.edu/brian/error_sum_of_squares.html

MAE (Mean Absolute Error, L1 Loss)

$$ \text{MAE}(c) = \frac{1}{n} \sum_{i=1}^n |x_i-c| $$

REFERENCES:

  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

RMSE (Root mean squared error), 平均二乗誤差平方根

ある値$c$に対して,各データ値$x_i$とすると、

$$ \text{RMSE}(c) = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i-c)^2} $$

別の例

$X_i$は標本データ $\hat{x}$は標本データの推定値

$$ RMSE(x) = \sqrt{ \frac{1}{n} \sum_{n=1}^n (x_i - \hat{x})^2 } $$

REFERENCES:

  • http://arduinopid.web.fc2.com/P12.html

RMS, 二乗平均平方根(RMS:Root Mean Square)、標準誤差

$X_i$は標本データ Sは基準値

$$ RMS(x) = \sqrt{ \frac{1}{n} \sum_{n=1}^n (x_i -S)^2 } $$

例) 標準偏差

$$ SD(x) = \sqrt{ \frac{1}{n} \sum_{n=1}^n (x_i - \bar{x})^2 } $$

REFERENCES:

  • http://arduinopid.web.fc2.com/P12.html

RSS, 残差平方和/誤差二乗和 (RSS:Residual Sum of Squares)

$X_i$は標本データ $\hat{x}$は標本データの推定値

$$ RSS(x) = \sum_{n=1}^n (x_i - \hat{x})^2 $$

REFERENCES:

  • http://arduinopid.web.fc2.com/P12.html

SRSS, 二乗和平方根 (SRSS:Square root of sum squares)

$$ SRSS(x) = \sqrt{ \sum_{n=1}^n x_i^2 } $$

REFERENCES:

  • http://arduinopid.web.fc2.com/P12.html

Hurber loss, Smooth Mean Absolute Error

REFERENCES:

  • https://ja.wikipedia.org/wiki/Huber%E6%90%8D%E5%A4%B1
  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

Log-cosh loss

予測誤差のハイパボリックコサインの対数.

REFERENCES:

  • https://keras.io/ja/losses/
  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

Quantile loss

see refrences

REFERENCES:

  • https://medium.com/analytics-vidhya/prediction-intervals-in-forecasting-quantile-loss-function-18f72501586f
  • https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0

活性化関数(activation function)

$$ y = activation(x) $$

  • activationは活性化関数のこと
  • x: あるユニットでの入力と重みの類似度
  • y: あるユニットでの計算結果

Sigmoid vs. Tanh vs. Relu

歴史的には ステップ -> シグモイド -> ハイパボリックタンジェント -> ReLUだったきが。。。

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0
  • https://www.hellocybernetics.tech/entry/2017/06/15/072248#%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0%E3%81%AE%E7%A8%AE%E9%A1%9E
  • https://mathwords.net/haipaborictan
  • https://qiita.com/namitop/items/d3d5091c7d0ab669195f
  • http://da.ms.t.kanazawa-u.ac.jp/lab/hojo/zairiki/text/00common/Stepfunction.htm
  • https://mathwords.net/doukeikitei
  • https://mathtrain.jp/softmax
  • https://qiita.com/SabanoMizuni/items/ab4b73cd9b8e733da11a

シグモイド関数

シグモイド関数のグラフ

  • 分母がxの負の指数をとるので
    • xが大きいほど、yは1に近づき
    • xが0のときは、yは $1/2$
    • xが小さいほど、yは0に近づく
  • ニューラルネットワークの活性化関数に使用される

指数関数のグラフ

ReLU (Rectified Linear Function/ランプ関数)

$$ f(x)= \begin{cases} x&x\geq 0\\ 0&x< 0 \end{cases} $$

$$ f(x)=x_+=\max(0,x) $$

ハイパボリックタンジェント (Tanh)

$$ y=\dfrac{e^x-e^{-x}}{e^x+e^{-x}} $$

$$ \displaystyle f(x)=\tanh(x)=\frac{\sinh(x)}{\cosh(x)} $$

$$ \displaystyle\lim_{x\to\infty}\tanh x=1 \\ \displaystyle\lim_{x\to -\infty}\tanh x=-1 $$

ロジスティック関数

ロジスティック関数(logistic function)

$$ f(x)=\dfrac{L}{1+\rm{exp}(\it{-k\ \rm{(} \it{x-x_0}}\rm{))}} $$

  • シグモイド関数を一般化した関数

シグモイド関数

$$ \displaystyle f(x) = \frac{1}{1+\exp (-x)} $$

  • 単調増加、値域が0~1なので、累積分布関数と同じと見える
  • なので、あるxの生起確率yになる
  • 2値分類で使用される

ステップ関数/ヘヴィサイドの階段関数 (step function)

$$ f(x)= \begin{cases} 1&x > 0\\ 0&x< 0 \end{cases} $$

恒常関数

$$ y = f(x) $$

その他の関数

切断冪関数 (truncated power function)

$$ f(x) = x^n_+= x^n  if  x \geq 0  else  0 $$

場合分けの関数を抽象化としたモノ

  • 指数0の切断冪函数⇒単位ステップ関数
  • 指数1の切断冪函数⇒ランプ関数

動径基底関数(radial basis function; RBF)

$$ f(x)=\exp(-\beta x^2) $$

ウェーブレット(wavelet)

TODO

ネットワークのスパース化

ニューラルネットワークがスパースである ⇒ 出力が0であるユニットがたくさんある状態

仮にあるユニットへの入力が0未満になると、出力が0になる。そしてその領域において、ReLUの微分は0であるため、これが学習の係数に掛かるため、結果としてそのユニットは全く学習が行われなくなる。

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0
  • https://www.hellocybernetics.tech/entry/2017/06/15/072248#%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0%E3%81%AE%E7%A8%AE%E9%A1%9E
  • https://mathwords.net/haipaborictan
  • https://qiita.com/namitop/items/d3d5091c7d0ab669195f
  • http://da.ms.t.kanazawa-u.ac.jp/lab/hojo/zairiki/text/00common/Stepfunction.htm
  • https://mathwords.net/doukeikitei
  • https://mathtrain.jp/softmax
  • https://qiita.com/SabanoMizuni/items/ab4b73cd9b8e733da11a

ドロップアウト

一部のニューロンを、わざと非活性化させ、訓練データに適合しすぎないようにする手法

アダム

Optimiser

  • Adam
  • AdaGrad
  • RMSprop
  • AdaProp

正則化(regularization)

過学習を抑えるためのしくみ

名前正則化特徴
ラッソ(Lasso)L1正則化説明変数の数を削減(次元圧縮)できる
リッジ(Ridge)L2正則化過学習を防いで精度を高める

定義

  • 損失関数に下の項目(正則化項)を加える
  • $λ$はハイパラ
  • $B_i$は学習データのi番目の特徴量($X_i$)に対する重みの係数

$$ \lambda \sum_{i}^{n}|w_i|^{p/1} $$

幾何学的な図

L1正則化

$$ L1: \sum_i^n |w_i| $$

L2正則化

$$ L2: \sum_i^n w_i^2 $$

REFERENCES:

  • https://aizine.ai/ridge-lasso-elasticnet/
  • https://to-kei.net/neural-network/regularization/
  • https://www.investor-daiki.com/it/ai/reguralization

正規化(normalization)

Z値に変換すること

勾配消失

過学習

次元の呪い (curse of dimensionality)

扱う特徴量(次元)が多すぎて、機械学習モデルが効率よく回帰または分類ができないこと

解決策

  • 特徴選択 (Feature selection)
    • 必要不可欠ではない(次元)を削除すること
  • 特徴作成(Feature creation)
    • 複数の特徴を組み合わせて、1つの特徴にすること

REFERNECES:

  • https://qiita.com/kibinag0/items/b1c0dac7df941ee42315

不均衡データ (imbalance data)

識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.

解決策

  • 混同行列のF値, AUC, ROC
  • データ生成
  • データオーギュメンテーション
  • 半教師有り学習
  • メトリックラーニング
  • Oversampling
  • Undersampling

REFERENCES:

  • http://ibisforest.org/index.php?%E4%B8%8D%E5%9D%87%E8%A1%A1%E3%83%87%E3%83%BC%E3%82%BF

次元削減とは

高次元のデータ集合$\boldsymbol{X}=\{x_1, x_2, ..., x_n\}$を低次元データの集合$\boldsymbol{Y}=\{y_1, y_2, ..., y_n\}$に変換すること

REFERENCES:

  • https://www.slideshare.net/TakayukiYagi1/tsne

埋め込み空間

データ(特徴量)を空間に埋め込むこと
データを埋め込むことで、距離を算出できるようになる

REFERENCES:

  • https://cpp-learning.com/metric-learning/

PCA

統計の主成分分析を参照

ちなみに、オートエンコーダーはPCAの純粋な拡張になりうることが数学的に証明ずみらしい see 深層学習 (機械学習プロフェッショナルシリーズ)

references:

  • https://www.procrasist.com/entry/23-distance

SNE

REFERENCES:

  • https://rightcode.co.jp/blog/information-technology/t-sne-visualizing-high-dimensional-data

t-SNE (t-Distributed Stochastic Neighbor Embedding/t 分布型確率的近傍埋め込み)

  • t-SNEは次元削減を行う教師なし学習手法のひとつ
  • 確率分布の差異を最小化するように学習を進める
  • 可視化に特化しており、PCAなどと比較してより複雑なデータでも有効に働きやすい
  • 考え方は、点の間の類似度が反映されるように高次元の点を低次元に埋め込む感じ

REFERENCES:

  • https://www.procrasist.com/entry/23-distance
  • https://aizine.ai/glossary-tsne/
  • https://jp.mathworks.com/help/stats/t-sne.html

特徴選択

頑健な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のこと

REFERENCES:

https://ja.wikipedia.org/wiki/%E7%89%B9%E5%BE%B4%E9%81%B8%E6%8A%9E

フィルタ法

Filter Methodとは、機械学習モデルを使用せずにデータセットのみで完結する手法であり、データの性質に依存します。そのためたいていはどの機械学習モデルに対しても有効であり、なおかつ処理が高速です。

手順

  1. 評価指標に則って、特徴量を1つ1つランク付けする
  2. 上位のランクの特徴量を選択して使用する

REFERENCES:

  • https://qiita.com/shimopino/items/5fee7504c7acf044a521

ラッパー法(wrapper)

Wrapper Methodとは、機械学習モデルを使用して特徴量の組み合わせを評価することです。こうすることでFilter Methodではわからなかった変数間の関係を探し出し、それぞれのモデルに最適な特徴量の組み合わせを探し出すことができます。

手順

  1. 特徴量の組み合わせを選択する
  2. [1]で選択した特徴量を使用してモデルを学習させる
  3. 性能を評価する

REFERENCES:

  • https://qiita.com/shimopino/items/5fee7504c7acf044a521

組み込み法(embedded)

Embedded Methodとは、特徴量選択をモデルの学習時に行う手法です。Filter Methodでは計算することのできなかった変換の関係も、この手法で計算することができます。また学習時に探索するため、Wrapper Methodよりも計算コストはかなり低いです。

手順

  1. モデルを学習させる
  2. 特徴量の重要度を算出する
  3. 重要でない特徴量を削除する

REFERENCES:

  • https://qiita.com/shimopino/items/5fee7504c7acf044a521

醜いアヒルの子の定理 (Ugly duckling theorem)

万能な特徴量は存在しない

No-free-lunch theorem (NFLT)

万能な学習アルゴリズムは存在しない

Toy Problem

トイ・プロブレム(Toy problem)とは、限られた世界で限られたルールに支配された問題。実社会ではあまり役に立たないが、簡潔でわかりやすいため、さまざまなアルゴリズムの性能を実験的に評価するための標準的な例題として研究目的に使用される。対して、リアルワールド・プロブレム(Real-World Problems)は、現実世界の問題であり実用的に社会で発生する問題を指す

REFERENCES:

  • http://brainvalley.jp/%E3%83%88%E3%82%A4%E3%83%97%E3%83%AD%E3%83%96%E3%83%AC%E3%83%A0

識別モデル(discriminative model)と生成モデル(generative model)

  • Generative models can generate new data instances.
  • Discriminative models discriminate between different kinds of data instances.

More formally, given a set of data instances X and a set of labels Y:

  • Generative models capture the joint probability $p(X, Y)$, or just $p(X)$ if there are no labels.
  • Discriminative models capture the conditional probability $p(Y | X)$.

REFERENCES:

  • https://developers.google.com/machine-learning/gan/generative

多様体仮説 (manifold hypothesis)

TODO

REFERENCES:

  • https://www.slideshare.net/pfi/20180115-86398520

距離

距離学習

2つが同じモノを表しているか、それとも違うモノを表しているのか? このような問題を解く場合、2つの間に『距離』を定義して、それが近ければ同じ、遠ければ違うと判断する方法が考えられます。ここでの『距離』は学習データを用いる事により、違うモノはより大きく、同じモノはより小さくなるように、目的に合わせて柔軟に定義する事ができます。このような操作の事を距離学習(Metric Learning)と言います。

ひとことでいうと、intra-classの分散を小さくして、inter-classの分散を大きくする学習

-inter-classintra-class
分散大きく小さく

REFERNECES:

  • https://qiita.com/tancoro/items/8d3438cab574a02319cc

Siamese Network (シャムネットワーク)

ネットワーク構造

Contrasive Loss

$$ {L_{Contrastive}((x_i, x_j);f) = t_{ij}d_{ij} + (1-t_{ij})(m - d_{ij}) \\ d_{ij} = ||f(x_i) - f(x_j) ||^2_2 } $$

  • $t_{ij}$は$x_i$と$x_j$が同じクラス(正のペア)であれば1, 異なるクラス(負のペア)であれば0を取る
  • mはハイパーパラメータでマージン

学習の幾何学的イメージ

  • 同じペアの距離を0にし、異なるペアの距離を大きくする

REFERENCES:

  • https://qiita.com/gesogeso/items/547079f967d9bbf9aca8

Triplet Network/Triplet Loss

ネットワーク構造

  • Triplet(anchor, positive, negative)を入力とする。
  • anchor: 任意のサンプル
  • positive: 同じクラスでanchorと異なるサンプル
  • negative: anchorと異なるクラスの任意のサンプル

ロス

$$ {L_{triplet}((x_a,x_p,x_n);f) = max(0, d_{a, p} + m - d_{a, n})\\ d_{a,p} = ||f(x_{a}) - f(x_{p})||^2_2\\ d_{a,n} = ||f(x_{a}) - f(x_{n})||^2_2 } $$

学習の幾何学的イメージ

  • あるアンカーをアンカーにして、同じ場合は近づけて、
  • 違う場合は離すようにする

L2 Softmax Network

REFERENCES:

  • https://copypaste-ds.hatenablog.com/entry/2019/03/01/164155

距離の公理

距離 $d()$ の公理

  • 非負性: $d(x, y)≥0$
  • 完備性: $d(x, y)=0 ⇔ x=y$
  • 対称性: $d(x, y)=d(y, x)$
  • 三角不等式: $d(x, y)+d(y, z)≥d(x, z)$

divergenceとは、距離の公理における4つの条件のうち「非負性」「対称性」のみを採用したもの "距離(metrics)"の拡張概念

REFERENCES:

  • https://yul.hatenablog.com/entry/2019/01/07/152738

ユークリッド距離

ある二点、$P(x_1, ..., x_n), Q(y_1, ..., y_n)$に対して、$\vec{x}=(x_1, ..., x_n), \vec{y}=(y_1, ..., y_n)$とすると、

ユークリッド距離は次のように定義できる。

$$ d(P, Q) = |\vec{x} - \vec{y}| = \sqrt{\sum_{k=1}^{n} (x_k-y_k)^2} $$

REFERENCES:

  • https://qiita.com/obake_kaiware/items/36104a479582063308f0
  • https://sitest.jp/blog/?p=6784

マハラノビス距離

TODO

マンハッタン距離

TODO

チェビシフ距離

TODO

ミンコフスキー距離

TODO

スパースモデリング (sparse modeling)

ネットワークのスパース化

ニューラルネットワークがスパースである ⇒ 出力が0であるユニットがたくさんある状態

仮にあるユニットへの入力が0未満になると、出力が0になる。そしてその領域において、ReLUの微分は0であるため、これが学習の係数に掛かるため、結果としてそのユニットは全く学習が行われなくなる。

REFERENCES:

  • https://ja.wikipedia.org/wiki/%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0
  • https://www.hellocybernetics.tech/entry/2017/06/15/072248#%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0%E3%81%AE%E7%A8%AE%E9%A1%9E
  • https://mathwords.net/haipaborictan
  • https://qiita.com/namitop/items/d3d5091c7d0ab669195f
  • http://da.ms.t.kanazawa-u.ac.jp/lab/hojo/zairiki/text/00common/Stepfunction.htm
  • https://mathwords.net/doukeikitei
  • https://mathtrain.jp/softmax
  • https://qiita.com/SabanoMizuni/items/ab4b73cd9b8e733da11a

多層パーセプトロン (Multilayer perceptron、MLP)

todo:

https://qiita.com/maskot1977/items/d0253e1eab1ff1315dff

ニューラルネットワーク(neaural network)

$$ y = ip(w, x) $$

  • ipはinnner productの略
  • wは重み
  • xは入力
  • yは出力
  • ニューラルネットワークは重みと入力の内積
  • つまりは、ある重みと入力のベクトルの類似度を測っている

例)

$$ \begin{bmatrix} w_{11} & w_{12} & w_{13}\\ w_{21} & w_{22} & w_{23} \end{bmatrix} \cdot \begin{bmatrix} x_{1} \\ x_{2} \\ x_{3} \\ \end{bmatrix} $$

  • 重みを最初にする理由はXの個数(バッチサイズ)を調整可能だから
  • [2r3c]x[3r1c]=[2r1c]の出力となる
  • [2r3c]x[3rXc]とすると、[2rXc]とX個の分だけ並列して計算できる

REFERENCES:

  • https://qiita.com/masafumi_miya/items/640800cef813acf70caf

GAN (Generative Adversarial Networks)

  • ひとことでいうと、未知の画像を生成するモデル。
  • 学習方法DとGの二人プレイの、Minimaxアルゴリズム
  • なので、Generaive Adversarial

ネットワーク構造

  • G:Generator
    • 例えるなら、偽札を作る悪人
  • D:Discriminator
    • 例えるなら、偽札を暴きたい警察
  • z:ノイズベクトル
    • 例えるなら、偽札の原料
  • x:本物のデータ (学習データ)
    • 例えるなら、本物の札束
  • G(z):Generatorが生成した偽のデータ
    • 例えるなら、偽札
  • m: ミニバッチサイズ

モデル

  • Generator: 画像を生成するモデル
    • あるノイズから画像を生成する
      • Generatorは、入力されたノイズベクトルzから本物のデータxの確率分布に近い偽データG(z)を生成できるよう学習する。
      • Generatorが本物のデータxと全く同じ確率分布の偽データを生成できれば、Discriminatorを完全に騙すことができるわけだが、それではxと同一のデータしか生成できないGeneratorになってしまう。
      • GANでは学習データに存在しないデータを生成するのが目的となるので、Generatorには学習データと同質の新しいデータを生成する生成過程を学習させる。
    • 入力: ノイズ
    • 出力: 画像
  • Discriminator: 画像が機械で生成されたか判定するモデル
    • いわゆる分類問題を解く
      • 本物であれば1を出力し、偽物であれば0を出力する二値分類
    • 入力: 画像
    • 出力: 器械で生成されたかどうかの分類

損失関数

Generator

  • 完全にGeneratorがDiscriminatorを騙すことができれば、 $D(G(z))$ は全て1になるので、
  • $log(1-1) = log(0)$ となり、損失はマイナス無限大まで小さくなる
  • 他方、GeneratorがDiscriminatorを騙せなければ、 $D(G(z))$ は全て0になるので、
  • $log(1-0) = log(1)$ となり、損失は大きくなる(0に近づく)

Discriminator

  • 本物のデータxをDiscriminatorで識別した誤差と、偽データG(z)を識別した誤差の和

目的関数

  • GeneratorとDiscriminatorの2つの損失関数を合わせて、

  • GAN全体の学習目標として目的関数に定式化すると以下のようになる↓

    • 左の項は本物データの確率分布 $P_data$ に従うXのサンプルを使った期待値
    • 右の項はノイズのデータの確率分布 $P$ に従うZのサンプルを使った期待値
    • Dは見分けたいのでMAXを、Gは欺きたいのでMINを引数にとる
  • V: value function

  • D and G play the following two-player minimax game

わかりやすい解説

学習の推移

  • 青の破線: D(x)
  • 緑の線:
  • 下の黒線: x = G(z)の写像

TODO:

探索アルゴリズム

  • Minimax法
  • αβ法

REFERENCES:

  • https://qiita.com/hakubisin104/items/64662d19fa7ae41a87aa
  • https://blog.negativemind.com/2019/06/22/generative-adversarial-networks/
  • https://www.slideshare.net/KCSKeioComputerSocie/large-scale-gan-training-for-high-fidelity-natural
  • https://www.webcyou.com/?p=6997

U-NET

オートエンコーダー

ボトルネック構造で特徴空間を持つモデル
入力と出力が同じで、それを再現するように学習するので、削減削減の効果を持つ

特徴空間を

一般的なNNとの違い

ネットワーク
一般的なニューラルネットワーク$y = f(x)$
オートエンコーダー$x = f(x)$

画像生成用のオートエンコーダー

  • Variational Autoencoder
  • U-NET

REFERENCES:

  • https://deepage.net/deep_learning/2016/10/09/deeplearning_autoencoder.html
  • https://www.slideshare.net/KazukiMotohashi2/20190619-150591242
  • https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24

LSTM

ResNet

Graph

Grad-CAM (Gradient-weighted Class Activation Mapping)

CAMを一般化したもの

$$ {a^c_k = \frac{1}{Z}\sum_i\sum_j\frac{\partial y^c}{\partial A^k_{ij}} \quad \quad \quad \ (1) \\ L^c_{Grad-CAM} = ReLU(\sum_k a^c_kA^k) \quad (2) } $$

  • $c$: 可視化対象クラス
  • $k$: フィルター数
  • $y^c$: 全結合層の最終出力でありsoftmax関数を適用する前の値
  • $A_{ij}^k$: k番目のフィルタ
  • $Z$: 画素数
  • $\frac{\partial y^c}{\partial A^k_{ij}}$: $y^c$に対するフィルター$k$内の各重みによる勾配

CAM (Class Activation Mapping)

$f_k(i,j)$をカーネルk番目の画素、$(i, j)$をカーネルの座標におけるピクセル、$Z$をカーネルの画素数とすると、GAP(Global average pooling)が得るk番目の値$F_k$は次となる。

$$ F_k = \frac{1}{Z} \sum_{i,j} f_k(i,j) $$

ソフトマックス層のクラスcのユニットに渡す値$S_c$は次となる。

$$ S_c = \sum_k w_k^c F_k $$

ただし、$w_k^c$はクラスcに対する重みを示す。
それ故、CAMは$f_k(i, j)$とその重みの線型結合で与えられる。

ある入力画像のクラスcに対するactivation map $M_c$は

$$ M_c(x,y) = \sum_k w_k^c f_k(x,y) $$

REFERENCES:

  • https://qiita.com/KDOG08/items/74ef0a342f100bf0c5d5
  • https://qiita.com/ito_takumi/items/22ddab3b5cf193dbcc3c
  • https://qiita.com/bukei_student/items/698383a7118f95c12cce

VAE (variational autoencoder)

REFERENCES:

  • https://speakerdeck.com/katsunoriohnishi/variational-auto-encoderru-men

SVM

サポートベクトル

VC次元

カーネル

ガウシアンカーネル(RBF)

カーネルトリック

CNNの用語

CNNの計算

フィルター適用後の画像の幅

  • w: image size width
  • p: padding size
  • f: filter size
  • s: stride size

$$ w_{after} = \frac{(w + p \times 2 - f)}{s} + 1 $$

例)

8x8の画像に4x4のfilterをstride=2かつpadding=0で適用させた場合は、

$$ \frac{(8 + 0 \times 2 - 4)}{2} + 1 = 3 $$

なので、出力される画像のサイズは3となる。

LeNetの構造

Kerasの場合

padding="valid"の場合

小さくなる

padding="same"の場合

同じ大きさになるように自動的にpadingしてくれる

def calc():
   w = 32
   f = 2
   s = 1
   p = 0
   
   x = (w - p * 2 - f ) / s + 1
   print(x)
   x =  int(x/2)
   print(x)
   x = (x - p * 2 - f ) / s + 1
   print(x)
   x =  int(x/2)
   print(x)
   x = (x - p * 2 - f ) / s + 1
   print(x)
   x =  int(x/2)
   print(x)

calc()

REFERENCES:

  • https://qiita.com/icoxfog417/items/5aa1b3f87bb294f84bac
  • http://www.thothchildren.com/chapter/59bf6f7ee319b7394d662311
  • http://localhost:5000/cv/cnn/conv.html

プーリングの計算

kernelが(2,2)の場合は、画像の次元を縦横半分にする (NOTE: stride=2)

REFERENCE:

  • https://www.renom.jp/ja/notebooks/tutorial/basic_algorithm/convolutional_neural_network/notebook.html
  • https://keras.io/ja/layers/pooling/

Global Average Pooling

  • https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/

ROI (Region of Interest)

computer vision literature, as the name suggests, ROI is used to identify regions in image that are of certain importance in a context that is specific to a task.

Visual Saliency (視覚的顕著性)

Visual saliency has been adapted from neuroscience to computer vision. Formally defining, saliency is a property of the image (or a patch of image) that stands out of its neighbouring pixels to human eyes

REFERENCES:

  • https://www.quora.com/Computer-Vision-What-is-the-difference-between-ROI-and-saliency
  • https://en.wikipedia.org/wiki/Region_of_interest

AlexNet

  • 14層からなるCNN
  • 活性化関数はReLUを採用
  • ドロップアウトも採用

VGG

  • 19層の構造をもつ

ResNet

  • 152層の構造をもつネットワーク
  • スキップ機構を採用

カメラ行列(camera matrix)

これがわかりやすい

http://opencv.jp/opencv-2.1/cpp/camera_calibration_and_3d_reconstruction.html

残差ネットワーク

  • ResNetに採用された仕組み

前処理(preprocessing)

2値化(binarization)

  • adaptive threashold

グレースケール

相互相関関数

畳み込み演算のこと。pはずらす幅

$$ C(p) = \frac{1}{N+1} \sum^{N}_{t=0} f_1(t) f_2(t+p) $$

関数特徴
自己相関関数(auto-correlation function)$f_1(t)$と$f_2(t)$が同じ事象
相互相関関数(cross-correlation function)$f_1(t)$と$f_2(t)$が違う関数

違い

関数特徴
コンボリューション関数(conv)
相関関数(xcorr)
離散フーリエ変換関数(fft)

REFERENCES:

  • https://www.e-bridge.jp/eb/tcontents/yasasikunai-k/chapter030102.html
  • https://pytorch.org/docs/stable/nn.html#torch.nn.Conv2d
  • https://www.ikko.k.hosei.ac.jp/~matlab/xcorr.pdf

MSE (平均二乗誤差)

MSEはMean Square Errorの略で、画素値の差分を2乗して足していき、その合計の平均

$$ MSE = \frac{1}{n} \sum_{i=0}^{n} (y_i - \hat{y_i}) $$

NOTE: $\hat{y_i}$が隣の画素

RMSE

MSEの平方根を取ったものをRMSEという

例えばRMSEが12になったとすれば、2つの画像の画素値が平均して12ずつ違う!といったことに(大体)なります。

SSD (Sum of Squared Difference)

テンプレートマッチングのでは画素値の差分を2乗したものの合計(MSE)をSSD(Sum of Squared Difference)とよぶ

REFERENCES:

  • https://dftalk.jp/?p=18111

PSNR (ピーク信号対雑音比)

PSNRはPeak Signal-to-Noise Ratioの略で、以下の式で求められる

$$ PSNR = 10 \cdot \log_{10} \left( \frac{MAX^2_I}{MSE} \right) \\ = 20 \cdot \log_{10} \left( \frac{MAX_I}{\sqrt{MSE}} \right) \\ = 20 \cdot \log_{10} (MAX_I) - 10 \cdot \log_{10}(MSE) $$

  • 分母はMSE, 分子のMAXは8ビット画像なら、255となる
  • 単位はdB(デシベル)。値が少ないほど劣化が激しく、高いほど劣化していないことを示す
  • 同一画像2枚で行った場合はMSE=0になるため求められない
  • 常用対数の十倍の理由は差が大きすぎると鈍くなる人の感覚に近づけようとしたため

REFERENCES:

  • https://dftalk.jp/?p=18111

SSIM (Structural Similarity)

輝度、コントラスト、構造を軸にして周囲のピクセル平均、分散、共分散をとることで、ピクセル単体のみならず、周囲のピクセルとの相関を取り込んだ指標

$$ SSIM(x,y) = \frac{(2 \mu_x \mu_y + c_1)(2 \sigma_{x y} + c_2)} {( \mu_x^2 + \mu_y^2 + c_1)( \sigma_x^2 + \sigma_y^2 + c_2)} $$

  • xが原画像、yが比較画像の局所領域
  • ここで、$μx$, $μy$は平均、$σx$, $σy$は標準偏差、$σxy$は共分散を意味する
  • c1やc2は自由に決めることができるが、8ビット画像の場合 $c1=(0.01 * 255)^2$, $c2=(0.03 * 255)^2$ を用いることが多い

分解版

$$ SSIM(x,y) = [l(x,y)^{\alpha} \cdot c(x,y)^{\beta} \cdot s(x,y)^{\gamma} ] \\ $$

$$ l(x,y) = \frac{ 2 \mu_x \mu_y + c_1}{\mu_x^2 + \mu_y^2 + c_1} :輝度平均 \\ c(x,y) = \frac{2 \sigma_x \sigma_y + c_2}{\sigma_x^2 + \sigma_y^2 + c_2} :輝度のばらつき \\ s(x,y) = \frac{\sigma_{x y} + c_3}{\sigma_x \sigma_y + c_3} :輝度の偏り \\ $$

MEMO:

  • 基本的に細かい差も出てしまうため、ガウシアンブラーなどを掛けてから処理をする
  • MSEやPSNRはそれなりの結果が出てきますが、これらによって求まる値は人間が見た時に感じる違いと必ずしも一致しない
  • MSEやPSNRでは「画像全体で少しずつ違う」「局所的に大きく違う」といった時にほぼ同じ結果が返ってくる
  • その人間が感じる違いをより正確に指標化するためにできたのがSSIM(Structural Similarity)

MSE/PSNRとの違い

  • 円周上の値はMSEとPSNRでは同じ値になる

REFERENCES:

  • https://dftalk.jp/?p=18111
  • https://qiita.com/yoya/items/510043d836c9f2f0fe2f

その他

ImageMagicを使うと別の指標も色々ある

$ compare -list Metric
AE
DSSIM
Fuzz
MAE
MEPP
MSE
NCC
PAE
PHASH
PSNR
RMSE
SSIM

REFERENCES:

  • http://www.fmwconcepts.com/imagemagick/ssim/index.php
  • https://www.imagemagick.org/script/command-line-options.php#metric

混同行列(Confusion Matrix)

推論クラス (predicted class)
正(P)負(N)
真のクラス(true class)正(P)True Positive(TP:真陽性)False Negative(FN:偽陰性)
負(N)False Positive(FP:偽陽性)True Negative(TN:真陰性)

Terms

  • FPR (False Positive Rate, 偽陽性率)
    • FPR = FP / (FP + TN)
  • TPR (True Positive Rate, 真陽性率)
    • TPR= TP / (TP + FN)
  • Precision (適合率)
    • Precision = TP / (TP + FP)
    • 正と予測したデータのうち,実際に正であるものの割合
    • 分母が検知したオブジェクト数
  • Recall (再現率)
    • Recall = TP / (TP + FN)
    • 実際に正であるもののうち,正であると予測されたものの割合
    • 分母が検知するべきオブジェクト数
  • Accuracy (精度、正解率)
    • Accuracy = TP + TN / (TP + TN + FP + FN )
  • Specificity (特異度)
    • Specificity = TN / (FP + TN)
  • F1-Score (F値)
    • F1-Score = 2 * (recall * precision) / (recall + precision)
  • Roc curve (Receiver operating characteristic curve, ROC曲線)
    • x axis is TPR
    • y axis is FPR
  • AUC (area under the curve)
    • area of Roc curve
    • value range is between 0 to 1
  • Precision-Recall curve (RP曲線)
    • x axis is Recall
    • y axis is Precision
  • AP (average precision)
    • area of Precision-Recall curve
    • value range is between 0 to 1
    • formula of calculation is depended on Dataset (Pascal VOC, MS COCO, etc)
  • mAP (mean average precision)
    • mean of AP
    • value range is between 0 to 1

NOTE:

  • TPR = Recall

Axis

  • Row oriented
    • FPR & TPR
  • TP oriented
    • Precision & Recall

references:

  • http://ibisforest.org/index.php?F%E5%80%A4
  • https://www.randpy.tokyo/entry/roc_auc
  • https://github.com/AlexeyAB/darknet#when-should-i-stop-training
  • https://qiita.com/FukuharaYohei/items/be89a99c53586fa4e2e4

混同行列の例(分類)

  • 例えば、妊娠検査を例にします。
  • 女性に対して妊娠検査をして妊娠または非妊娠と診断したかを混合行列で表現します。
実際は妊娠中
(Positive)
実際は非妊娠
(Negative)
予測が妊娠中
(Positive)
TP(True Positive)
妊娠女性に妊娠と診断
FP(False Positive)
非妊娠女性に妊娠と診断
第1種の誤り
予測が非妊娠
(Negative)
FN(Flase Negative)
妊娠女性に非妊娠と診断
第2種の誤り
TN(True Negative)
非妊娠女性に非妊娠と診断

$$ Precision = \frac{TP}{TP + FP} \\ Recall = \frac{TP}{TP + FN} $$

つまり、

$$ Precision = \frac{正しく実際に陽性を陽性と予測した数}{陽性と予測した数} = 陽性と予測したデータのうち,実際に陽性であるものの割合 = 1行目 \\ Recall = \frac{正しく実際に陽性を陽性と予測した数}{実際に陽性の数} = 実際に陽性であるもののうち,陽性であると予測されたものの割合 = 1列目 $$

混同行列の例(物体検知)

物体検知では、「クラスの分類すること」に加えて「物体の領域を検出する」こと 物体検出の評価指標では、画像分類のときとは異なり「物体の領域を検出すること」を含めて評価する

TNは背景予測

  • 物体検知のTNは背景予測になる
  • A true negative is simply the algorithm correctly stating that the area it checked does not hold an object
  • 物体検知のTPは予測とGTの重なりがあったこと
  • その逆なので、何もないところに何もない事を予測すること(背景予測)

GT boundign boxとPredicted bounding box

IoU(Intersection over Union)のいい例と悪い例

Precision, Recall, IoU

2つの領域がどれだけ重なっているかを[0, 1]の間の値で評価する

信頼スコア (Confidence Score)

  • 信頼度スコアとは、そのBboxがどこくらい物体を含んでいるのかを表すスコア
  • 評価のときは、PR曲線(RecallとPrecisionの曲線)を描くために、データの並び替えに使用される

予測したBboxの結果の一覧

  • 下の表の例では、ある画像の中に含まれるりんごを予測した例
  • りんごは画像の中に5個存在(GT Bbox=5)する
  • 予測結果として10個のりんごのBboxが検出された
  • PredictionのBboxとGTのBboxと重なりが50 > IoUの場合にTP、それ以下の場合はFPとなっている
  • 結果はcondidentce Scoreでソートされている
  • 無論、信頼スコアが高い方が、物体の確率が高いので、TPの割合が高いことは容易に想像できる
  • つまり、一般的には上の方がはTPが多く、下の方はFPが多いハズ

NOTE

  • 信頼度スコア(Confidence Score)は、あくまで物体がある信頼度であり、分類の信頼度ではないことに注意
  • また、しきい値的なことは評価のときは考えない
Prediction Bbox NoConfidence Score(%)TP/FP
#196True
#292True
#389False
#488False
#584False
#683True
#780True
#878False
#974False
#1072True

混同行列

物体検知では混同行列は次の指標となる

  • TP: Predicted BboxとGround-truth Bboxが十分に重なっている(IoU > 0.5)
    • つまり、重なった数
    • positiveの意味は重なりがpositiveかどうか
  • FP: Predicted Bboxに対してGround-truth Bbo1が十分に重なっていない (IoU < 0.5)
    • つまり、重ならなかったPrediction Bboxの数
  • FN: Ground-truth Bboxに対してPredicted Bboxが十分に重なっていない (IoU < 0.5)
    • つまり、重ならなかったGT Bboxの数
  • TN: そもそも、重ならないことは予測していないのでなし
    • つまり、背景は予測していない

NOTE: 下の表は混同行列っぽいが、混同行列ではないので注意

IoU ≥ 0.5IoU < 0.5
Predicted BBoxに対してGround-truth BBoxがTPFP
Ground-truth BBoxに対してPredicted BBoxがTPFN

$$ Precision = \frac{TP}{TP + FP} \\ Recall = \frac{TP}{TP + FN} $$

つまり、

$$ Precision = \frac{正しく(IoU≥0.5)で検出できた数}{全てのPredictedBBoxの数} \\ Recall = \frac{正しく(IoU≥0.5)で検出できた数}{全てのGTBBoxの数} $$

日本語にすると、

  • Precisionは
    • 全ての予測結果(IoUに限らず全てのPredicted BBox)の内,正しくIoUが0.5以上で予測できた割合を表す
  • Recallは
    • 実際の正解結果(GT BBox)の内,IoUが0.5以上で正解結果とほぼ近しい位置のBBoxを予測できた割合を表す

PrecisionとRecall

例を用いてPrecisionとRecallの計算例を示す

  • GT BBoxの数=5個だとして(つまり、りんごが5個あったと仮定して),
  • 機械が10個のりんごのbboxを予測していることを示している
Prediction Bbox NoConfidence Score(%)Correct?PrecisionRecall
#196True1/1 = 11/5 = 0.2
#292True2/2 = 12/5 = 0.4
#389False2/3 = 0.6672/5 = 0.4
#488False2/4 = 0.52/5 = 0.4
#584False2/5 = 0.42/5 = 0.4
#683True3/6 = 0.53/5 = 0.6
#780True4/7 = 0.5714/5 = 0.8
#878False4/8 = 0.54/5 = 0.8
#974False4/9 = 0.4444/5 = 0.8
#1072True5/10 = 0.55/5 = 1.0

Prediction Bbox Noが3番目の計算を例にとると、

$$ Precision = \frac{それまで見てきたTrueの数}{それまで見てきたPredicted BBoxの総数} = 2/3 = 0.667 $$

$$ Recall = \frac{それまで見てきたTrueの数}{全てのGT BBoxの数} = 2/5 = 0.4 $$

Djangoの例

射撃に例えると、

-射撃の精度(Precision)実際に的に当てた数(Recall)
信頼スコアが高いところの結果高め(狙い済まして当てている、スナイパーライフル)低め(少ししか撃っていないため)
信頼スコアが低いところの結果低め(数撃ちゃ当たる戦法、マシンガン)高め(たくさん撃って的にあたっているため)

つまり、次のことが言える

  • スナイパーライフルで絶対に当たるところ(信頼度が高いところのみ)だけ撃つと、
    • 精度は高いが、逃す確率も高い
  • マシンガンで数撃ちゃ当たる戦法だと、
    • 精度は低いが、当たる確率は高い

つまり、PrecisionとRecallはトレードオフ

  • 弾を撃てば撃つほど当てやすいが1発あたりの弾の精度は下がり、打たないほど当てにくいが1発あたりの精度は高い
  • 信頼スコアも高いところと低いところが混ざっているので、その2つが混在している
  • なので、総合的に判断しなければいけない

つまり、Djangoが必要ということ

兵士使用するたまの数撃った弾に対する射撃精度(precision)眼の前の敵に対する射撃精度(recall)
Django100発百発百中敵は絶対逃さない
スナイパー兵10発百発百中敵は逃しがち
マシンガン兵100万発百発撃って、1発命中敵は逃さない(当てる)

そして、実際には、部隊(モデル)には、スナイパー兵(信頼スコア高)とマシンガン兵(信頼スコア低)の射撃結果(予測結果)が混ざっているので、 じゃあ部隊の精度はどのくらいなのかを、PR曲線で算出する必要がある

PR曲線

NOTE:

  • ROC曲線と似ているが、ROC曲線ではないので注意
  • ROCはX軸はFPF, Y軸はTPF

最後に,先ほど求めた物体検出のPrecisionとRecallを用いて,APとmAPを計算する

  • AP (average precision)を出すためのもの
  • APを出すために,表2の結果のRecallを横軸,Precisionを縦軸にとり,グラフを描きます.

式は次。(r=recall, p=precisio)

$$ AP = \int_0^1 p(r) dr $$

  • 積分を行うために,上図のようにジグザグなパターンを滑らかにする
  • 具体的には,下図のように,各Recallのレベルで横に見た時に,Precisionの値が最大の値に置き換える

  • ここで原理的には通常の積分を行うのですが,
  • プログラム上で積分を行う際には,全ての点を扱うわけにはいかないので
  • 11点の代表点を取り、下で計算する

$$ AP = \frac{1}{11}*(p(0) + p(0.1) + ・・・ + p(1.0)) $$

結果、平均の精度であるAPを算出した

  • なお、11点はPascal VOCの場合
  • もし、複数物体の検出なら、クラスごとにAPがでるので、それを平均した$mAP$も算出する

MS COCO

Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.378
Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.560
Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.409
Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.194
Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.431
Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.539
Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.303
Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.483
Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.511
Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.262
Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.577
Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.700
  • MS COCOは101点となる
  • なお、MS COCOのAPIの$AP_50$や$AP_75$はIoUの値が50%や75%以上でTPとするなどの、TPかのしきい値を変えたものである
  • IoU=0.50:0.95の意味は0.05刻みに0.50~0.95まで基準IoUを変えたmAPの平均
  • COCOではmAPとAPという言葉を区別せずに使っているので注意
  • small / medium / largeに分けたオブジェクトの大きさごとの値も測定している
  • -1.00の場合は該当なし

REFERENCES:

  • https://qiita.com/mdo4nt6n/items/08e11426e2fac8433fed
  • https://www.sigfoss.com/developer_blog/detail?actual_object_id=267
  • http://cocodataset.org/#detection-eval
  • http://www.thothchildren.com/chapter/5c5baad741f88f26724f6b46#:~:text=PR%E6%9B%B2%E7%B7%9A(Precision%2DRecall%20Curve,%E8%BB%B8%E3%81%AB%E3%83%97%E3%83%AD%E3%83%83%E3%83%88%E3%81%97%E3%81%9F%E3%82%B0%E3%83%A9%E3%83%95.&text=%E5%A4%A7%E6%96%B9ROC%E6%9B%B2%E7%B7%9A%E3%81%A8%E5%90%8C%E3%81%98,%E3%81%8C%E3%81%82%E3%82%8B%E3%81%A8%E3%81%8D%E3%81%AB%E6%9C%89%E7%94%A8.
  • https://stackoverflow.com/questions/16271603/how-to-categorize-true-negatives-in-sliding-window-object-detection
  • https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173

ROC曲線とPR曲線

-ROC曲線PR曲線
xrecallFPR
yprecisionTPR

ROC曲線

$$ \text{FPR} = \frac{FP}{TN + FP} \\ \text{TPR(recall)} = \frac{TP}{TP + FN} $$

PR曲線

$$ \text{TPR(recall)} = \frac{TP}{TP + FN} \\ \text{Precision} = \frac{TP}{TP + FP} $$

どっちを使うか

  • ROC曲線とPR曲線のどちらを使えばよいのか、という話ですが一般的には不均衡データの場合(negativeの数がpositiveの数よりも圧倒的に多い等)はPR曲線を使い、
  • それ以外はROC曲線を使用するのがよいとされています。

REFERENCES:

  • https://qiita.com/g-k/items/b47b9b0ee2015a3b0b94

global feature/local feature

項目global featurelocal feature
日本語大域特徴局所特徴
detecion/findinggoodbad
identification/recognitionbadgood
類似画像検索goodbad
特定物体認識badgood
CNNの層最初の方の層の処理最後の方の層の処理

REFERENCES:

  • https://www.quora.com/What-are-local-and-global-features-in-image-processing
  • https://www.slideshare.net/ren4yu/image-retrieval-overview-from-traditional-local-features-to-recent-deep-learning-approaches

決定木

回帰木

ランダムフォレスト

勾配ブースティング木

AR,MR,(S)ARIMAモデル

状態空間モデル

K-mean

K近傍法

怠惰学習 (lazy learning)

線形判別分析法

階層的クラスタリング

ガウシアンカーネル

アンサンブル学習 (Ensemble Learning)

機械学習においてのアンサンブル学習(Ensemble Learning)は、複数のモデル(学習器)を融合させて1つの学習モデルを生成する手法

つまり、複数のモデルがよれば文殊の知恵

アンサンブル学習の手法

手法特徴複数のモデル学習方法
ブースティング予測結果のバイアスを低くする直列に学習
バギング予測結果のバリアンスを低くする並列に学習

References:

  • https://www.codexa.net/what-is-ensemble-learning/
  • https://www.slideshare.net/Retrieva_jp/ss-80724064

バイアスとバリアンスのトレードオフ

In statistics and machine learning, the bias–variance tradeoff is the property of a set of predictive models whereby models with a lower bias in parameter estimation have a higher variance of the parameter estimates across samples, and vice versa.

バイアス

誤差のうちの、モデル由来のもの

バリアンス

誤差のうちの、訓練データのゆらぎ由来のもの

誤差

NOTE:

  • ここで述べている誤差は下図にある真の値からくるもの

バイアスとバリアンスのトレードオフ

状態特徴
バイアス=highunderfitting(未学習)
バリアンス=highoverfitting(過学習)

Bull's-eye diagram of bias and variance

Trade off of Bias and variance

Overfitting vs. underfitting

bulls-eye diagram

REFERENCES:

  • https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff
  • https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229
  • https://ja.wikipedia.org/wiki/%E5%81%8F%E3%82%8A%E3%81%A8%E5%88%86%E6%95%A3

ブースティング (boosting)

  • 前の学習器が誤分類したデータを優先的に正しく分類できるように、直列に学習する方法
  • つまり、弱い所を重点的に分類できるように後続のモデルをつなげていく

ブースティングはモデルの予測精度に対してバイアスを下げる

REFERENCES:

  • https://www.codexa.net/what-is-ensemble-learning/
  • https://www.slideshare.net/Retrieva_jp/ss-80724064

バギング (Bagging; Bootstrap Aggregating)

  • 別々の手法のモデルを複数用意し、その個数分のサンプルを復元抽出することによって、
  • 母集団の多様性を活かし、複数のモデルを並列に学習させる手法

一般的にモデルの予測結果のバリアンスを低くする特徴がある

ランダムフォレストもバギングの一種

REFERENCES:

  • https://www.codexa.net/what-is-ensemble-learning/
  • https://www.slideshare.net/Retrieva_jp/ss-80724064

スタッキング (Stacking)

勾配ブースティング

MDP

Q学習

DQN

nlp

  • コーパス: テキストや発話を大規模に集めてデータベース化した言語資料
  • コンテキスト: ある単語の周辺の単語のこと

分布仮説

単語の意味は、周囲の単語によって形成されるという仮説

カウントベースと推論ベース

-カウントベース推論ベース
特徴量の出し方ベクトルベクトル
学習手順一度に学習逐次学習
構成共起行列ニューラルネットワーク
学習方法ターゲットのコンテキストをカウントコンテキストからターゲットを推測

Word2Vec

CBOW (continuous bag-of-words)

文脈中の単語から対象単語が現れる条件付き確率を最大化することを目的とする手法 つまり、前後の単語から対象単語を推測すること

ネットワーク構造

  • 入力は複数で出力は一つのネットワーク構造をもつ
  • 中間層に複数の入力層が全結合されるモデル
  • なので、中間層では入力層の平均化される
  • 予測関数はsoftmax関数
  • 誤差関数はコンテキストからターゲットのワード同時確率として推定させる

$$ L = -\frac{1}{T}\sum_{t=1}^{T}logP(w_{t}|w_{t-1},w_{t+1}) $$

REFERENCES:

  • https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html
  • https://qiita.com/g-k/items/69afa87c73654af49d36

skip-gram

  • スキップグラムはCBOWの逆で、入力が一つで出力が複数のネットワーク構造
  • 損失関数はイカ

$$ L = -\frac{1}{T}\sum_{t=1}^{T}(logP(w_{t-1}|w_{t}) + logP(w_{t+1}|w_{t})) $$

可換

交換法則の事

除算は可換ではないが、分数を使うと乗算になるので可換になる

ndarray

ViewとCopy

どちらもデータをコピーするが、違いは以下

object意味
copy値型
view参照型

View

Tensor型

GPU機能と勾配情報を持つnumpy.ndarry
正確には torch.tensor型

References

  • https://bellcurve.jp/
  • https://to-kei.net/
  • http://www.data-arts.jp/index.html
  • https://mathwords.net/
  • https://mathtrain.jp/
  • https://toukeigaku-jouhou.info/
  • https://data-science.gr.jp/
  • https://sci-pursuit.com/index.html
  • https://univ-study.net/
  • https://atarimae.biz/
  • https://python.atelierkobato.com/
  • https://www.hellocybernetics.tech/
  • https://math-fun.net/
  • http://www.deeplearningbook.org/
  • https://qiita.com/
  • https://www.codexa.net/
  • https://www.khanacademy.org/
  • http://www.osssme.com/doc/funto105.html
  • http://www.ftext.org/
  • http://www.thothchildren.com/