不均衡データ (imbalance data)

識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.

解決策

  • 混同行列のF値, AUC, ROC
  • データ生成
  • データオーギュメンテーション
  • 半教師有り学習
  • メトリックラーニング
  • Oversampling
  • Undersampling

REFERENCES:

  • http://ibisforest.org/index.php?%E4%B8%8D%E5%9D%87%E8%A1%A1%E3%83%87%E3%83%BC%E3%82%BF