如果單一模型太容易猜錯,能不能找很多個模型一起投票? 你可以把自助聚合想成多個學習器一起看不同抽樣資料,再把結果平均或投票。 它的重點是降低模型波動,讓結果更穩定。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
自助聚合 vs Boosting? 自助聚合:多模型並行訓練後投票或平均 Boosting:模型一個接一個接力修正錯誤 最關鍵的區別:Bagging 強調平行平均,Boosting 強調串接修正
自助聚合 vs 正則化? 自助聚合:偏向降方差 正則化:偏向限制模型複雜度 最關鍵的區別:Bagging 是集成方法,正則化是控制單模型
自助聚合 vs 隨機森林? 自助聚合:常搭配決策樹 隨機森林:在 Bagging 基礎上再加入特徵隨機抽取 最關鍵的區別:隨機森林可以視為 Bagging 的強化版
記住這句就好
很多個不太一樣的答案一起投票,通常更穩
實際案例
風險分類 每個子模型看不同抽樣資料,最後投票決定是否高風險,減少單一模型的偶然失誤
醫療判讀 多個模型對影像給出分數後再平均,結果常比只靠一個模型穩定
算法與應用
重點 你要看什麼 為什麼重要 抽樣 bootstrap 自助抽樣 每個模型看到的資料不完全一樣 組合 投票或平均 把高波動結果拉穩 效果 主要降方差 對容易過擬合的模型很有幫助
情境判斷
Q1:如果你的單一決策樹常常忽上忽下,Bagging 有沒有可能幫忙? → 有,因為它常用來降低高方差模型的不穩定性
Q2:如果模型本身已經很穩,而且偏差很高,Bagging 還是首選嗎? → 不一定,因為它主要降方差,對高偏差問題幫助有限
常見問題
Bagging 一定要很多模型嗎?
通常模型越多越穩,但也要看成本與邊際效益。
Bagging 和 Random Forest 差在哪?
Random Forest 在 Bagging 之外還加入特徵隨機性,讓樹與樹之間差異更大。
Bagging 會讓模型變慢嗎?
訓練和推論都可能變重,但常能換到更穩的表現。