決定木
分類木(Classification Tree) と回帰木(Regression Tree)の総称して決定木 (Decision Tree) 目的は条件によって、エントロピーを下げること
種類 | 特徴 | 適用事例 |
---|---|---|
回帰木 | 目的変数が数値データの場合に用いられる | 特定企業の株価予測 |
分類木 | 目的変数がカテゴリカルデータの場合に用いられる | スパムメールとハムメールの分類 |
イメージ
決定木の特徴
- ノンパラメトリックな教師あり学習の手法
- 決定木はアルゴリズムの名前ではない
- アルゴリズム名はID3やC4.5,CART
決定木のPros&Cons
- Pros
- 可読性が高い
- NOTE: Random ForestやXGBoostは高くない
- 説明変数・目的変数共に名義尺度から間隔尺度まで様々扱える
- 同一カラムの単純な比較であり、正規化も必要ない
- 外れ値に対して頑健
- 可読性が高い
- Cons
- 過学習を起こしやすい
- max_depthを設定する必要がある
- 線形性のあるデータには適していない
- 損失関数を使う回帰の方がいい
- 過学習を起こしやすい
REF
- http://www.analyticsdlab.co.jp/column/decisiontree.html