決策樹 是什麼?
Decision Tree — 決策樹 的完整解釋
決策樹是一種透過 if-else 條件判斷,將資料逐步拆解為更純粹子集的模型,具備高度可解釋性
容易混淆
random-forest vs 類神經網路:決策樹像流程圖,判斷過程透明可解釋,你清楚知道每個判斷步驟;類神經網路像黑箱,雖然準確但你不知道它內部怎麼做出決策。 常見混淆:決策樹 vs random-forest 單棵樹好解釋,隨機森林把很多棵樹集成在一起更穩。
記住這句就好
一路問條件,一路往下分。
實際案例
貸款審核 先看收入,再看負債,再看還款紀錄,最後給出不同分支結果。 客戶流失預測 根據使用頻率、客服紀錄和付款狀況分成不同風險群。
算法與應用
- 決策樹的分裂通常會根據資訊增益或 Gini 不純度來選特徵。
- 樹太深容易過擬合,所以常要做剪枝。
- 它可解釋性高,但單棵樹的穩定度通常不如集成方法。
情境判斷
Q1:如果你想用很直觀的方式描述模型決策,哪種模型很適合? → 決策樹很適合,因為每一步都看得見。 Q2:樹越深就一定越好嗎? → 不一定,太深容易記住訓練資料,反而過擬合。
相關術語
常見問題
決策樹如何處理缺失值?
決策樹可以透過多種方式處理缺失值,例如忽略包含缺失值的樣本,或使用其他樣本的值進行填補。更進階的方法是在選擇最佳特徵時,考慮缺失值對信息增益或 Gini 不純度的影響,並將缺失值作為一個單獨的分支進行處理。
決策樹有哪些常見的剪枝策略?
決策樹的剪枝策略可以分為預剪枝 (Pre-pruning) 和後剪枝 (Post-pruning) 兩種。預剪枝是在樹的生長過程中,提前停止樹的生長,例如設定最大樹深度或最小樣本數。後剪枝是在樹完全生長完成後,自底向上地刪除一些節點,例如使用驗證集進行評估,刪除能夠提高泛化能力的節點。
隨機森林 (Random Forest) 和決策樹有什麼關係?
隨機森林是一種集成學習演算法,它由多棵決策樹組成。每棵決策樹都是在原始資料的一個隨機子集上訓練的,並且在選擇最佳特徵時,只考慮一部分特徵。隨機森林透過集成多棵決策樹的預測結果,可以有效降低過擬合風險,提高模型的準確率和泛化能力。