隨機森林(Random Forest)是什麼?

隨機森林是一種集成學習演算法,透過多棵決策樹投票,以隨機子集資料和特徵進行訓練,提升預測準確性|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

隨機森林(Random Forest)是什麼? 機器學習模型訓練

你做分類題時,會不會覺得只靠一棵決策樹有點像只聽一個人的意見?

你可以把隨機森林想成很多棵樹一起投票,單棵樹可能會看錯,但整體通常更穩。 它的重點是用多個弱一點的判斷器,組成一個比較不容易翻車的模型。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

隨機森林 vs 決策樹 決策樹是一棵樹自己做判斷。 隨機森林是很多棵樹一起投票。 最關鍵的區別:一個單打獨鬥,一個集體決策。

隨機森林 vs 提升算法 隨機森林通常是平行訓練多棵樹,再投票。 提升算法是前一個弱模型修正下一個弱模型的錯誤。 最關鍵的區別:一個平行整合,一個逐步修正。

隨機森林 vs 裝袋法 裝袋法是用自助抽樣把多個模型訓練出來。 隨機森林是在裝袋的基礎上,再加入特徵隨機抽樣。 最關鍵的區別:隨機森林比一般裝袋多了特徵隨機性。

記住這句就好

單棵樹可能偏,很多棵樹一起投票就穩一點。

實際案例

信用風險判斷 金融單位要判斷申請人是否可能違約,隨機森林常能比單棵樹更穩定。 因為它不太容易被單一特徵帶偏。

醫療分類 當你要把病歷特徵分類成不同風險等級時,隨機森林常能提供不錯的基線表現。 對資料表格型任務來說,它常是很實用的起點。

算法與應用

隨機森林會對訓練資料做自助抽樣,讓每棵樹看到不同子集。 在每個分裂節點,它也只看部分特徵,這能增加樹之間的差異。 最後用分類投票或回歸平均得到結果,通常比單棵樹更穩。

情境判斷

Q1(直覺題): 你要做表格型資料的分類,想要一個穩定基線,先考慮什麼?

→ 先考慮隨機森林,因為它通常比單棵決策樹更穩。

Q2(判斷題): 如果你很在意模型可解釋性,隨機森林一定比決策樹更適合嗎?

→ 不一定,因為隨機森林通常更難直觀解讀,若你要很清楚的規則,單棵樹反而更好。

常見問題

隨機森林會不會過擬合?

會有機會,但通常比單棵樹不容易過擬合。

它適合影像或文字嗎?

可以用,但在高維、非結構化資料上,深度學習通常更常見。

樹越多越好嗎?

不一定,樹太多會讓訓練和推論變慢,要看效能和成本。