決定木

分類木(Classification Tree) と回帰木(Regression Tree)の総称して決定木 (Decision Tree) 目的は条件によって、エントロピーを下げること

種類特徴適用事例
回帰木目的変数が数値データの場合に用いられる特定企業の株価予測
分類木目的変数がカテゴリカルデータの場合に用いられるスパムメールとハムメールの分類

イメージ

決定木の特徴

  • ノンパラメトリックな教師あり学習の手法
  • 決定木はアルゴリズムの名前ではない
    • アルゴリズム名はID3やC4.5,CART

決定木のPros&Cons

  • Pros
    • 可読性が高い
      • NOTE: Random ForestやXGBoostは高くない
    • 説明変数・目的変数共に名義尺度から間隔尺度まで様々扱える
      • 同一カラムの単純な比較であり、正規化も必要ない
    • 外れ値に対して頑健
  • Cons
    • 過学習を起こしやすい
      • max_depthを設定する必要がある
    • 線形性のあるデータには適していない
      • 損失関数を使う回帰の方がいい

REF

  • http://www.analyticsdlab.co.jp/column/decisiontree.html