遮罩區域卷積網路(Mask R-CNN)是什麼?

Mask R-CNN是一種深度學習模型,用於物件偵測、實例分割和人體姿勢估計。它擴展了Faster R-CNN,增加了預測每個物件像素級別遮罩的分支。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

遮罩區域卷積網路(Mask R-CNN)是什麼? 深度學習電腦視覺

你有沒有想過,模型不只要知道物件在哪,還要知道它每一個像素在哪? 你可以把 Mask R-CNN 想成,先框出物件,再把物件輪廓塗滿。 它其實就是同時做物件偵測和實例分割的模型。 當你需要比方框更細的結果,它就特別有用。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

Mask R-CNN vs Faster R-CNN Faster R-CNN 主要做偵測和框選,Mask R-CNN 還多了像素級遮罩。 一個只畫框,一個還會塗形狀。

Mask R-CNN vs 語意分割 語意分割分的是類別,實例分割還要分同類不同個體。 一個看物種,一個看每一隻。

最關鍵的區別: 框出來不夠,還要分清每個物件本身。

記住這句就好

不只知道在哪裡,還要知道邊界在哪裡。

實際案例

醫療影像 醫師要切出腫瘤輪廓時,Mask R-CNN 可以比單純偵測框更精準。

自動駕駛 道路上的行人、車輛和交通錐都需要被精細分出來,方便後續規劃。

算法與應用

它在 Faster R-CNN 的基礎上加了 mask 分支,輸出每個物件的像素遮罩。 RoIAlign 能減少對齊誤差,讓遮罩位置更準。 在醫療、工業檢測和場景理解裡,這種精細標註很重要。

情境判斷

Q1(直覺題): 你只想知道圖片裡物件的輪廓,不只方框,該用什麼模型思路?

Mask R-CNN 很合適,因為它能做實例分割。

Q2(判斷題): 如果只是要判斷圖片裡有沒有車,還一定要用 Mask R-CNN 嗎?

不一定,單純偵測通常不需要這麼精細的分割模型。

常見問題

Mask R-CNN 最擅長什麼?

它擅長把物件位置和輪廓一起找出來。

Mask R-CNN 為什麼比方框更準?

因為它輸出的是像素級遮罩,不只是矩形框。

Mask R-CNN 訓練需要很多標註嗎?

通常需要,尤其是實例分割的標註成本本來就比較高。