iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

影像分割是什麼技術?

原題 32

某環保局想建立 AI 系統監測空氣品質,透過分析監測站攝影機拍攝的影像來識別煙霧。系統需要在影像中找出煙霧區域並標示其位置與範圍。這個應用主要屬於電腦視覺的哪個技術領域?

白話

某環保局建置 AI 系統,透過監測站攝影機的影像來識別煙霧。系統需要在影像中找出煙霧區域,並標示出煙霧的位置與範圍。

問你:這個應用主要屬於電腦視覺的哪個技術領域?

點選你的答案。

01 總結

一句話總結

要在影像中精確標出「哪些像素是煙霧」,用的是影像分割(Image Segmentation),而不是只畫框框的物件偵測。

02 情境

先感受問題:監測站拍到煙霧,要怎麼圈出來?

台中市環保局在市區各處架設了 50 台攝影機,24 小時拍攝空氣狀況。工程師小安負責建立 AI 系統,自動偵測影像中是否有工廠排放的煙霧。

主管說:「只知道有沒有煙霧不夠,我要知道煙霧佔了畫面哪個區域、範圍多大,才能估算污染程度、判斷風向、追蹤煙霧來源。」

小安面對的問題是:AI 要怎麼「精確描繪」出煙霧的形狀,而不只是框一個粗略的方框?這就是影像分割技術要解決的問題。

03 對照

用較粗糙的方式處理,會遇到什麼問題

小安嘗試用幾種比較簡單的方式,一一碰壁:

  1. 影像分類只給是非題:AI 只說「這張影像有煙霧」或「沒有煙霧」,但主管要的是「煙霧在哪裡、多大範圍」,完全沒用
  2. 物件偵測只畫方框:AI 在煙霧位置畫一個矩形框,但煙霧是不規則擴散形狀,一個方框裡還包含了大量非煙霧區域,面積估算嚴重失真
  3. 方框不能追蹤輪廓:煙霧邊緣形狀每秒都在變,方框跟不上,也無法計算煙霧體積
  4. 人工標記太慢:50 台攝影機每秒產生影像,靠人工一張張圈出煙霧範圍根本不現實
  5. 無法量化污染程度:沒有像素級別的範圍資訊,就無法計算「煙霧覆蓋了多少比例的畫面」這個關鍵指標

無論用哪種粗糙方式,都無法滿足「精確標示位置與範圍」的需求。

04 解法

影像分割怎麼精確圈出煙霧

影像分割(Image Segmentation)把整張影像的每一個像素都分類:這個像素是「煙霧」,那個像素是「天空」,另一個像素是「建築物」。

小安的系統在每一幀影像上,為每個像素打上標籤。結果輸出的不是一個框,而是一張「遮罩圖」:煙霧區域塗成紅色,非煙霧區域保持透明。

這樣主管就能知道:煙霧佔整張影像的 12.3%,中心點在畫面左上方 1/4 區域,形狀向東北方擴散。這些數字全部來自像素計算,比任何方框都精確。

這就是選項 C 講的:影像分割,精確標示出煙霧的像素區域

技術版:影像分割在電腦視覺中的位置

影像分割(Image Segmentation)是電腦視覺(Computer Vision)的核心任務之一,依精細程度分為兩種:

語義分割(Semantic Segmentation):把每個像素標成「類別」,例如「煙霧」「天空」「建築」,但同類物體不分個體。環保局的煙霧監測通常用語義分割,因為不需要區分「第一朵煙」跟「第二朵煙」。

實例分割(Instance Segmentation):不只標類別,還區分同類物體中的每一個個體,例如同一張圖中的「煙霧 1」「煙霧 2」。精度更高,但計算量也更大。

這個技術在 AI 領域的位置:影像分割屬於電腦視覺(CV)的核心任務,比影像分類和物件偵測難度更高,需要的運算資源也更多。常見應用包含醫療影像(標出腫瘤邊界)、自動駕駛(識別道路與行人)、衛星影像分析(圈出農地或災害範圍)。

為什麼出題者考這題:AI 應用規劃師在選技術時,必須能分辨四種電腦視覺任務的精準度差異。選錯技術會導致系統做不到想要的功能,或浪費資源用了過重的解法。

05 陷阱

為什麼其他選項是錯的

A影像分類,判斷影像中是否有煙霧

字面在說什麼

對整張影像做分類,回答「有煙霧」或「沒有煙霧」。

為什麼不對

影像分類只輸出一個標籤,無法提供位置資訊。題目明確要求「找出煙霧區域並標示其位置與範圍」,分類完全做不到這件事。

誰會選錯

讀題不夠仔細,只抓到「識別煙霧」這個關鍵字,忽略了「位置與範圍」需求的人。

B物件偵測,找出煙霧位置並用方框標示

字面在說什麼

用矩形邊界框(bounding box)框出煙霧的位置,輸出框的座標和類別。

為什麼不對

物件偵測能找到位置,但只能畫「方框」,無法精確標出煙霧的不規則像素輪廓。題目說「標示其位置與範圍」,「範圍」要精確到像素邊界,方框做不到。這是最常混淆的選項。

誰會選錯

知道物件偵測能「找位置」,但不清楚它和影像分割精度差異的人。關鍵在「範圍輪廓」:物件偵測只有框,分割有精確邊界。

D人臉辨識,識別煙霧來源

字面在說什麼

用人臉辨識技術去識別煙霧的「來源」。

為什麼不對

人臉辨識是專門辨識人類面部特徵的技術,跟煙霧偵測完全無關。「識別煙霧來源」的說法本身就不合邏輯,煙霧沒有臉。這個選項是明顯干擾項。

誰會選錯

幾乎不會有人選這個。它的存在是要讓考生確認自己理解「人臉辨識」不能拿來識別物體類別。

06 變形

同個考點下次怎麼變形

變形 1

醫療 AI 要自動標出 X 光片中腫瘤的精確輪廓,應使用哪種電腦視覺技術?

直覺

醫療影像要「畫出腫瘤邊界」,跟煙霧範圍的需求類似。

答案

影像分割(Image Segmentation)。腫瘤的形狀不規則,需要像素級別的邊界,不是方框能描述的。語義分割標出「腫瘤」類別像素,實例分割還能區分多個腫瘤個體。

變形 2

自動駕駛系統要在行車影像中找出其他車輛的位置,以避免碰撞,最適合哪種技術?

直覺

自動駕駛要「知道其他車在哪」,找位置。

答案

如果只需要車輛位置和大小,物件偵測(Object Detection)就夠了,輸出方框和距離即可。如果需要精確識別車道線、行人輪廓、道路邊界,則用影像分割。兩者在自駕系統中通常同時使用。

變形 3

影像分類和物件偵測的最大差異是什麼?

直覺

兩個都是「辨識影像中的東西」,差別在哪?

答案

影像分類輸出「整張圖的標籤」(這張圖是貓),沒有位置資訊。物件偵測輸出「每個物體的位置方框 + 類別」(左上角有貓、右下角有狗)。有沒有位置輸出,是最關鍵的差異。

變形 4

語義分割(Semantic Segmentation)和實例分割(Instance Segmentation)有何不同?

直覺

都是「分割」,更細的差異考試偶爾會出。

答案

語義分割把所有同類像素標成同一類別,不區分個體(兩隻貓都標「貓」)。實例分割進一步區分個體(「貓1」和「貓2」各自獨立標記)。環保局只需要「哪些像素是煙霧」,語義分割就夠了。

變形 5

電腦視覺四大任務的精準度排序是什麼?

直覺

考試可能直接問「哪種技術精度最高」。

答案

從粗到精:影像分類(整張圖一個標籤)→ 物件偵測(方框 + 類別)→ 語義分割(每像素類別)→ 實例分割(每像素 + 每個體)。精度越高,計算量越大,所需訓練資料也越多。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 32 題

查看官方原文 PDF