自助聚合(Bagging)是什麼?

Bagging (Bootstrap Aggregating) 是一種集成學習技術,透過對原始資料集進行多次有放回的抽樣,訓練多個模型,並將它們的預測結果進行平均或投票。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

自助聚合(Bagging)是什麼? 機器學習模型訓練

如果單一模型太容易猜錯,能不能找很多個模型一起投票? 你可以把自助聚合想成多個學習器一起看不同抽樣資料,再把結果平均或投票。 它的重點是降低模型波動,讓結果更穩定。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

自助聚合 vs Boosting? 自助聚合:多模型並行訓練後投票或平均 Boosting:模型一個接一個接力修正錯誤 最關鍵的區別:Bagging 強調平行平均,Boosting 強調串接修正

自助聚合 vs 正則化? 自助聚合:偏向降方差 正則化:偏向限制模型複雜度 最關鍵的區別:Bagging 是集成方法,正則化是控制單模型

自助聚合 vs 隨機森林? 自助聚合:常搭配決策樹 隨機森林:在 Bagging 基礎上再加入特徵隨機抽取 最關鍵的區別:隨機森林可以視為 Bagging 的強化版

記住這句就好

很多個不太一樣的答案一起投票,通常更穩

實際案例

風險分類 每個子模型看不同抽樣資料,最後投票決定是否高風險,減少單一模型的偶然失誤

醫療判讀 多個模型對影像給出分數後再平均,結果常比只靠一個模型穩定

算法與應用

重點 你要看什麼 為什麼重要
抽樣 bootstrap 自助抽樣 每個模型看到的資料不完全一樣
組合 投票或平均 把高波動結果拉穩
效果 主要降方差 對容易過擬合的模型很有幫助

情境判斷

Q1:如果你的單一決策樹常常忽上忽下,Bagging 有沒有可能幫忙? → 有,因為它常用來降低高方差模型的不穩定性

Q2:如果模型本身已經很穩,而且偏差很高,Bagging 還是首選嗎? → 不一定,因為它主要降方差,對高偏差問題幫助有限

常見問題

Bagging 一定要很多模型嗎?

通常模型越多越穩,但也要看成本與邊際效益。

Bagging 和 Random Forest 差在哪?

Random Forest 在 Bagging 之外還加入特徵隨機性,讓樹與樹之間差異更大。

Bagging 會讓模型變慢嗎?

訓練和推論都可能變重,但常能換到更穩的表現。