影像分割是什麼技術?
某環保局想建立 AI 系統監測空氣品質,透過分析監測站攝影機拍攝的影像來識別煙霧。系統需要在影像中找出煙霧區域並標示其位置與範圍。這個應用主要屬於電腦視覺的哪個技術領域?
某環保局建置 AI 系統,透過監測站攝影機的影像來識別煙霧。系統需要在影像中找出煙霧區域,並標示出煙霧的位置與範圍。
問你:這個應用主要屬於電腦視覺的哪個技術領域?
一句話總結
要在影像中精確標出「哪些像素是煙霧」,用的是影像分割(Image Segmentation),而不是只畫框框的物件偵測。
先感受問題:監測站拍到煙霧,要怎麼圈出來?
台中市環保局在市區各處架設了 50 台攝影機,24 小時拍攝空氣狀況。工程師小安負責建立 AI 系統,自動偵測影像中是否有工廠排放的煙霧。
主管說:「只知道有沒有煙霧不夠,我要知道煙霧佔了畫面哪個區域、範圍多大,才能估算污染程度、判斷風向、追蹤煙霧來源。」
小安面對的問題是:AI 要怎麼「精確描繪」出煙霧的形狀,而不只是框一個粗略的方框?這就是影像分割技術要解決的問題。
用較粗糙的方式處理,會遇到什麼問題
小安嘗試用幾種比較簡單的方式,一一碰壁:
- 影像分類只給是非題:AI 只說「這張影像有煙霧」或「沒有煙霧」,但主管要的是「煙霧在哪裡、多大範圍」,完全沒用
- 物件偵測只畫方框:AI 在煙霧位置畫一個矩形框,但煙霧是不規則擴散形狀,一個方框裡還包含了大量非煙霧區域,面積估算嚴重失真
- 方框不能追蹤輪廓:煙霧邊緣形狀每秒都在變,方框跟不上,也無法計算煙霧體積
- 人工標記太慢:50 台攝影機每秒產生影像,靠人工一張張圈出煙霧範圍根本不現實
- 無法量化污染程度:沒有像素級別的範圍資訊,就無法計算「煙霧覆蓋了多少比例的畫面」這個關鍵指標
無論用哪種粗糙方式,都無法滿足「精確標示位置與範圍」的需求。
影像分割怎麼精確圈出煙霧
影像分割(Image Segmentation)把整張影像的每一個像素都分類:這個像素是「煙霧」,那個像素是「天空」,另一個像素是「建築物」。
小安的系統在每一幀影像上,為每個像素打上標籤。結果輸出的不是一個框,而是一張「遮罩圖」:煙霧區域塗成紅色,非煙霧區域保持透明。
這樣主管就能知道:煙霧佔整張影像的 12.3%,中心點在畫面左上方 1/4 區域,形狀向東北方擴散。這些數字全部來自像素計算,比任何方框都精確。
這就是選項 C 講的:影像分割,精確標示出煙霧的像素區域。
技術版:影像分割在電腦視覺中的位置
影像分割(Image Segmentation)是電腦視覺(Computer Vision)的核心任務之一,依精細程度分為兩種:
語義分割(Semantic Segmentation):把每個像素標成「類別」,例如「煙霧」「天空」「建築」,但同類物體不分個體。環保局的煙霧監測通常用語義分割,因為不需要區分「第一朵煙」跟「第二朵煙」。
實例分割(Instance Segmentation):不只標類別,還區分同類物體中的每一個個體,例如同一張圖中的「煙霧 1」「煙霧 2」。精度更高,但計算量也更大。
這個技術在 AI 領域的位置:影像分割屬於電腦視覺(CV)的核心任務,比影像分類和物件偵測難度更高,需要的運算資源也更多。常見應用包含醫療影像(標出腫瘤邊界)、自動駕駛(識別道路與行人)、衛星影像分析(圈出農地或災害範圍)。
為什麼出題者考這題:AI 應用規劃師在選技術時,必須能分辨四種電腦視覺任務的精準度差異。選錯技術會導致系統做不到想要的功能,或浪費資源用了過重的解法。
為什麼其他選項是錯的
A影像分類,判斷影像中是否有煙霧
對整張影像做分類,回答「有煙霧」或「沒有煙霧」。
影像分類只輸出一個標籤,無法提供位置資訊。題目明確要求「找出煙霧區域並標示其位置與範圍」,分類完全做不到這件事。
讀題不夠仔細,只抓到「識別煙霧」這個關鍵字,忽略了「位置與範圍」需求的人。
B物件偵測,找出煙霧位置並用方框標示
用矩形邊界框(bounding box)框出煙霧的位置,輸出框的座標和類別。
物件偵測能找到位置,但只能畫「方框」,無法精確標出煙霧的不規則像素輪廓。題目說「標示其位置與範圍」,「範圍」要精確到像素邊界,方框做不到。這是最常混淆的選項。
知道物件偵測能「找位置」,但不清楚它和影像分割精度差異的人。關鍵在「範圍輪廓」:物件偵測只有框,分割有精確邊界。
D人臉辨識,識別煙霧來源
用人臉辨識技術去識別煙霧的「來源」。
人臉辨識是專門辨識人類面部特徵的技術,跟煙霧偵測完全無關。「識別煙霧來源」的說法本身就不合邏輯,煙霧沒有臉。這個選項是明顯干擾項。
幾乎不會有人選這個。它的存在是要讓考生確認自己理解「人臉辨識」不能拿來識別物體類別。
同個考點下次怎麼變形
醫療 AI 要自動標出 X 光片中腫瘤的精確輪廓,應使用哪種電腦視覺技術?
醫療影像要「畫出腫瘤邊界」,跟煙霧範圍的需求類似。
影像分割(Image Segmentation)。腫瘤的形狀不規則,需要像素級別的邊界,不是方框能描述的。語義分割標出「腫瘤」類別像素,實例分割還能區分多個腫瘤個體。
自動駕駛系統要在行車影像中找出其他車輛的位置,以避免碰撞,最適合哪種技術?
自動駕駛要「知道其他車在哪」,找位置。
如果只需要車輛位置和大小,物件偵測(Object Detection)就夠了,輸出方框和距離即可。如果需要精確識別車道線、行人輪廓、道路邊界,則用影像分割。兩者在自駕系統中通常同時使用。
影像分類和物件偵測的最大差異是什麼?
兩個都是「辨識影像中的東西」,差別在哪?
影像分類輸出「整張圖的標籤」(這張圖是貓),沒有位置資訊。物件偵測輸出「每個物體的位置方框 + 類別」(左上角有貓、右下角有狗)。有沒有位置輸出,是最關鍵的差異。
語義分割(Semantic Segmentation)和實例分割(Instance Segmentation)有何不同?
都是「分割」,更細的差異考試偶爾會出。
語義分割把所有同類像素標成同一類別,不區分個體(兩隻貓都標「貓」)。實例分割進一步區分個體(「貓1」和「貓2」各自獨立標記)。環保局只需要「哪些像素是煙霧」,語義分割就夠了。
電腦視覺四大任務的精準度排序是什麼?
考試可能直接問「哪種技術精度最高」。
從粗到精:影像分類(整張圖一個標籤)→ 物件偵測(方框 + 類別)→ 語義分割(每像素類別)→ 實例分割(每像素 + 每個體)。精度越高,計算量越大,所需訓練資料也越多。
想再往下看,這 5 個
- 影像分割(Image Segmentation)對影像中每個像素標注類別標籤,輸出精確物體輪廓遮罩,是標示煙霧像素範圍的正確技術
- 電腦視覺(Computer Vision)讓機器理解影像內容的 AI 領域,影像分割、物件偵測、分類是其三大核心任務,精度層次遞增
- 物件偵測(Object Detection)找出物體位置並以矩形邊界框標示,比影像分割粗糙,無法精確描繪煙霧不規則輪廓
- 圖像分類(Image Classification)判斷整張影像屬於哪個類別,只輸出「有無煙霧」而無法標示煙霧位置,是三個選項中最粗糙的
- 卷積神經網路(Convolutional Neural Network)影像分割模型(如 U-Net、Mask R-CNN)的基礎架構,透過卷積操作提取局部空間特徵