コサイン類似度(Cosine similarity)

二つのベクトル $\vec{a}=(a_1,a_2,⋯,a_n)$ と $\vec{b}=(b_1,b_2,⋯,b_n)$ に対して、次をコサイン類似度という

$$ \dfrac{a_1b_1+\cdots +a_nb_n}{\sqrt{a_1^2+\cdots +a_n^2}\sqrt{b_1^2+\cdots +b_n^2}} $$

  • コサイン類似度=2つのベクトルのなす角のコサイン
  • 値域は1~-1
  • 直角の場合は0

分子は内積、分母はベクトルの絶対値の積なので、2つのベクトルの$cos \theta$を求めることに等しい

$$ \dfrac{a_1b_1+\cdots +a_nb_n}{\sqrt{a_1^2+\cdots +a_n^2}\sqrt{b_1^2+\cdots +b_n^2}} = \frac{\langle \vec{a}, \vec{b} \rangle}{|\vec{a}||\vec{b}|} = \frac{|\vec{a}||\vec{b}| cos \theta }{|\vec{a}||\vec{b}|} = cos \theta $$

REFERENCES:

  • https://mathtrain.jp/cosdistance