隨機森林 是什麼?
Random Forest — 隨機森林 的完整解釋
隨機森林是一種集成學習演算法,透過多棵決策樹投票,以隨機子集資料和特徵進行訓練,提升預測準確性
容易混淆
隨機森林 vs 決策樹 決策樹是一棵樹自己做判斷。 隨機森林是很多棵樹一起投票。 最關鍵的區別:一個單打獨鬥,一個集體決策。
隨機森林 vs 提升算法 隨機森林通常是平行訓練多棵樹,再投票。 提升算法是前一個弱模型修正下一個弱模型的錯誤。 最關鍵的區別:一個平行整合,一個逐步修正。
隨機森林 vs 裝袋法 裝袋法是用自助抽樣把多個模型訓練出來。 隨機森林是在裝袋的基礎上,再加入特徵隨機抽樣。 最關鍵的區別:隨機森林比一般裝袋多了特徵隨機性。
記住這句就好
單棵樹可能偏,很多棵樹一起投票就穩一點。
實際案例
信用風險判斷 金融單位要判斷申請人是否可能違約,隨機森林常能比單棵樹更穩定。 因為它不太容易被單一特徵帶偏。
醫療分類 當你要把病歷特徵分類成不同風險等級時,隨機森林常能提供不錯的基線表現。 對資料表格型任務來說,它常是很實用的起點。
算法與應用
隨機森林會對訓練資料做自助抽樣,讓每棵樹看到不同子集。 在每個分裂節點,它也只看部分特徵,這能增加樹之間的差異。 最後用分類投票或回歸平均得到結果,通常比單棵樹更穩。
情境判斷
Q1(直覺題): 你要做表格型資料的分類,想要一個穩定基線,先考慮什麼?
→ 先考慮隨機森林,因為它通常比單棵決策樹更穩。
Q2(判斷題): 如果你很在意模型可解釋性,隨機森林一定比決策樹更適合嗎?
→ 不一定,因為隨機森林通常更難直觀解讀,若你要很清楚的規則,單棵樹反而更好。
相關術語
常見問題
隨機森林會不會過擬合?
會有機會,但通常比單棵樹不容易過擬合。
它適合影像或文字嗎?
可以用,但在高維、非結構化資料上,深度學習通常更常見。
樹越多越好嗎?
不一定,樹太多會讓訓練和推論變慢,要看效能和成本。