決策樹(Decision Tree)是什麼?

決策樹是一種透過 if-else 條件判斷,將資料逐步拆解為更純粹子集的模型,具備高度可解釋性|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

決策樹(Decision Tree)是什麼? 機器學習模型訓練

你有沒有在你想看模型怎麼一層層做決定時,還在想這件事到底該怎麼看?

把它想成一張一路問是或不是的流程圖。 它會根據特徵條件一路分裂資料,最後得到不同結果。 因為規則直觀,所以常被拿來做解釋和入門教學。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

random-forest vs 類神經網路:決策樹像流程圖,判斷過程透明可解釋,你清楚知道每個判斷步驟;類神經網路像黑箱,雖然準確但你不知道它內部怎麼做出決策。 常見混淆:決策樹 vs random-forest 單棵樹好解釋,隨機森林把很多棵樹集成在一起更穩。

記住這句就好

一路問條件,一路往下分。

實際案例

貸款審核 先看收入,再看負債,再看還款紀錄,最後給出不同分支結果。 客戶流失預測 根據使用頻率、客服紀錄和付款狀況分成不同風險群。

算法與應用

  1. 決策樹的分裂通常會根據資訊增益或 Gini 不純度來選特徵。
  2. 樹太深容易過擬合,所以常要做剪枝。
  3. 它可解釋性高,但單棵樹的穩定度通常不如集成方法。

情境判斷

Q1: 如果你想用很直觀的方式描述模型決策,哪種模型很適合?

決策樹很適合,因為每一步都看得見。

Q2: 樹越深就一定越好嗎?

不一定,太深容易記住訓練資料,反而過擬合。

常見問題

決策樹如何處理缺失值?

決策樹可以透過多種方式處理缺失值,例如忽略包含缺失值的樣本,或使用其他樣本的值進行填補。更進階的方法是在選擇最佳特徵時,考慮缺失值對信息增益或 Gini 不純度的影響,並將缺失值作為一個單獨的分支進行處理。

決策樹有哪些常見的剪枝策略?

決策樹的剪枝策略可以分為預剪枝 (Pre-pruning) 和後剪枝 (Post-pruning) 兩種。預剪枝是在樹的生長過程中,提前停止樹的生長,例如設定最大樹深度或最小樣本數。後剪枝是在樹完全生長完成後,自底向上地刪除一些節點,例如使用驗證集進行評估,刪除能夠提高泛化能力的節點。

隨機森林 (Random Forest) 和決策樹有什麼關係?

隨機森林是一種集成學習演算法,它由多棵決策樹組成。每棵決策樹都是在原始資料的一個隨機子集上訓練的,並且在選擇最佳特徵時,只考慮一部分特徵。隨機森林透過集成多棵決策樹的預測結果,可以有效降低過擬合風險,提高模型的準確率和泛化能力。