EGB（極端梯度提升）是什麼？完整定義與解說

機器學習模型訓練

你有沒有聽過，做表格資料預測時，很多人第一個就想到 XGBoost？

你可以把它想成，一棵樹接一棵樹地補前一棵沒學好的地方，最後把很多弱模型組成強模型。

它會紅不是沒原因，因為它常在結構化資料上表現強、速度快、也比較不怕缺失值。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

XGBoost vs 傳統 GBDT 傳統 GBDT 可以用，但常少了更細的工程優化。 XGBoost 加了正則化、並行化和更好的缺失值處理。最關鍵的區別：是不是把訓練和工程細節一起做強。

XGBoost vs 隨機森林 隨機森林是很多樹並行投票。 XGBoost 是樹一棵一棵接續修正。最關鍵的區別：並行投票，還是逐步修正。

XGBoost vs 正則化一般樹模型 沒有正則化的模型容易長太複雜。 XGBoost 會把模型複雜度納入目標，降低過擬合風險。最關鍵的區別：有沒有把複雜度管住。

記住這句就好

一棵樹補一棵樹的錯，最後組成強模型。

實際案例

信用風險評分 銀行常用表格資料做放款風險判斷。 Before：人工規則多、更新慢。After：XGBoost 在特徵清楚的資料上常能給出很強的基線。

詐騙偵測 大量欄位資料常需要快速建立可用模型。 Before：只靠單棵樹。After：用 boosting 一層層修正，通常更有競爭力。

算法與應用

XGBoost 的核心是梯度提升樹，加上正則化、剪枝、列抽樣與行抽樣等工程優化。

它特別適合表格型資料，不一定是影像或文字任務的第一選擇。

如果你想找穩定的結構化資料基線，XGBoost 幾乎總值得試一次。

情境判斷

Q1（直覺題）： XGBoost 為什麼常被拿來做表格資料？

→ 因為它對欄位型資料很強，能把很多弱樹逐步疊成穩定又好用的模型。

Q2（判斷題）： 高維資料一定適合直接丟給 XGBoost 嗎？

→ 看情況。要留意過擬合、特徵選擇和計算量，必要時還要調整正則化強度。

常見問題

怎麼評估模型效果？

看任務類型選指標，分類常用 F1、AUC，回歸則看 MSE、RMSE 或 MAE。

除了 Python 還能用嗎？

可以，R、Java、Scala 和 C++ 也都有相關介面。

XGBoost 一定比其他樹模型好嗎？

不一定，但它常是很強的基線，尤其在表格資料和特徵工程做得好的時候。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

資料來源與參考依據