決策樹是什麼？

Decision Tree — 決策樹的完整解釋

決策樹是一種透過 if-else 條件判斷，將資料逐步拆解為更純粹子集的模型，具備高度可解釋性

random-forest vs 類神經網路：決策樹像流程圖，判斷過程透明可解釋，你清楚知道每個判斷步驟；類神經網路像黑箱，雖然準確但你不知道它內部怎麼做出決策。 常見混淆：決策樹 vs random-forest 單棵樹好解釋，隨機森林把很多棵樹集成在一起更穩。

一路問條件，一路往下分。

貸款審核 先看收入，再看負債，再看還款紀錄，最後給出不同分支結果。 客戶流失預測 根據使用頻率、客服紀錄和付款狀況分成不同風險群。

決策樹的分裂通常會根據資訊增益或 Gini 不純度來選特徵。

樹太深容易過擬合，所以常要做剪枝。

它可解釋性高，但單棵樹的穩定度通常不如集成方法。

Q1：如果你想用很直觀的方式描述模型決策，哪種模型很適合？ → 決策樹很適合，因為每一步都看得見。 Q2：樹越深就一定越好嗎？ → 不一定，太深容易記住訓練資料，反而過擬合。

常見問題

決策樹可以透過多種方式處理缺失值，例如忽略包含缺失值的樣本，或使用其他樣本的值進行填補。更進階的方法是在選擇最佳特徵時，考慮缺失值對信息增益或 Gini 不純度的影響，並將缺失值作為一個單獨的分支進行處理。

決策樹的剪枝策略可以分為預剪枝 (Pre-pruning) 和後剪枝 (Post-pruning) 兩種。預剪枝是在樹的生長過程中，提前停止樹的生長，例如設定最大樹深度或最小樣本數。後剪枝是在樹完全生長完成後，自底向上地刪除一些節點，例如使用驗證集進行評估，刪除能夠提高泛化能力的節點。

隨機森林是一種集成學習演算法，它由多棵決策樹組成。每棵決策樹都是在原始資料的一個隨機子集上訓練的，並且在選擇最佳特徵時，只考慮一部分特徵。隨機森林透過集成多棵決策樹的預測結果，可以有效降低過擬合風險，提高模型的準確率和泛化能力。