クロスエントロピー誤差

  • 本当は場合分けしたほうがわかりやすい
  • $y_i$ は正解ラベルで値域は0か1
  • なので、正解の場合の計算は赤の項が使われ、
  • なので、不正解の場合の計算は緑の項が使わる。
  • $\tilde{y_i}$ は予測の出力値
  • $\tilde{y_i}$ は確率なので、値域は0~1まで
  • ログを取っているので、$\tilde{y_i}$ の確率100%のときは 0
  • ログを取っているので、$\tilde{y_i}$ の確率0%のときは マイナス無限

なので次のようになる

-教師ラベル1教師ラベル0
予測確率100%誤差=0誤差=無限大
予測確率0%誤差=無限大誤差=0

対数のグラフ

別の例

$$ {E = - \sum_{k=1}^n t_k \log x_k^n } $$

  • ユニットからの出力$x_k^n$は確率(活性化関数の出力が確率)と仮定すると、値域は1~0。
  • つまり、logからの出力は$log(1) =0$で、$log(0) = - \infty$となる
  • よって、確率が最大の時に誤差は0になり、最小の時に無限大になる
  • それを正解ラベルで重み付けしているので、対象のラベルについての重さを調整している

例)

※ $z_n^4$は誤差関数を適用する前の最終層

$$ {E = - \sum_{k=1}^3 t_k \log z_k^4 = - (t_1 \log z_1^4 + t_2 \log z_2^4 + t_3 \log z_3^4)} $$

  • $t$は教師ラベル
  • 1hot表現の場合はtの値域は1~0まで、