iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

CNN 第一層卷積層主要做什麼?

原題 05

某智慧製造公司開發一套影像辨識系統,用於自動檢測生產線上的瑕疵產品。系統採用卷積神經網路(Convolutional Neural Network, CNN)作為主要模型架構,其中第一層卷積層(Convolutional Layer)主要負責的功能為下列何者?

白話

一家智慧製造公司用 CNN 做影像辨識來偵測瑕疵品。CNN 架構裡有很多層,題目在問最前面那層:第一層卷積層在整個流程中負責做哪件事?

問你:CNN 第一層卷積層的主要功能是什麼?

點選你的答案。

01 總結

一句話總結

CNN 第一層卷積層的主要工作是自動提取輸入影像中的局部特徵,例如邊緣、角點、紋路,這些是後續層識別更複雜圖案的基礎材料。

02 情境

先感受問題:機器怎麼「看」出瑕疵

台達電的生產線每分鐘跑出幾百個電容器,品管員要目視檢查每一顆有沒有裂痕、缺角、污漬。這顯然做不完,於是導入了 CNN 影像辨識系統。

機器要怎麼「看懂」一張照片裡哪裡有瑕疵?

  • 人的視覺系統是先「看見邊緣和輪廓」,再組合成物體,再判斷有沒有異常。
  • CNN 的做法類似:第一層先找出影像的基本元素(邊緣、角點、顏色轉折),後面的層再把這些元素組合成「裂痕」「缺角」這類高階特徵,最後判斷是否為瑕疵。

所以第一層卷積層的任務是:從原始像素裡抓出那些基本的視覺元素,也就是「局部特徵」。

03 對照

沒有卷積層的舊方法有什麼問題

  1. 手工特徵工程費時費力:傳統方法需要工程師手動設計「偵測裂痕的濾波器」,一種瑕疵寫一組規則,新產品換線就要重寫。
  2. 全連接網路參數爆炸:一張 256×256 的灰階圖有 65,536 個像素,如果每個像素都連到下一層的每個神經元,參數量天文數字,根本無法訓練。
  3. 無法捕捉空間關係:純像素值不含位置資訊,左邊和右邊的像素在全連接網路裡被當作獨立輸入,完全忽略空間結構。
  4. 泛化能力差:手工規則對特定角度、光線的瑕疵能抓到,稍微換個情境就失準。
  5. 可解釋性低:數千條規則堆疊,工程師也搞不清楚哪條規則在做什麼。
04 解法

卷積層怎麼自動提取局部特徵

卷積層用一組可學習的「濾波器」(Filter,也叫卷積核)在影像上滑動,每次只看一個小區域(例如 3×3 或 5×5 的像素塊),計算這個小區域和濾波器的相似度,輸出一個數值。

這個「只看一個小區域」的動作,就是「提取局部特徵」的本質:

  • 某個濾波器學會「偵測水平邊緣」,掃到水平線時輸出高值,掃到均勻區域輸出低值。
  • 另一個濾波器學會「偵測左斜邊緣」。
  • 第一層的 32 個濾波器各自學一種局部特徵,整張影像掃完後輸出 32 張「特徵圖」。

台達電的瑕疵檢測系統:第一層卷積層從電容器照片中提取出邊緣、紋路資訊,後面幾層再組合成「裂紋形狀」「缺角形狀」,最後輸出「正常」或「瑕疵」。

這就是選項 A 講的:自動提取輸入影像中的局部特徵

技術版:CNN 卷積層在電腦視覺中的核心地位

CNN(卷積神經網路)屬於電腦視覺(Computer Vision)領域,是影像分類、物件偵測、影像分割的基礎模型架構,自 2012 年 AlexNet 在 ImageNet 競賽奪冠後成為業界標準。

CNN 的分層結構與功能:

  • 第一層卷積層:提取低階局部特徵(邊緣、角點、顏色梯度)。
  • 中間卷積層:組合低階特徵成中階特徵(眼睛形狀、圓弧、紋路)。
  • 深層卷積層:組合成高階語義特徵(人臉、車輪、裂縫)。
  • 池化層(Pooling Layer):每隔幾層降低空間維度,減少計算量。
  • 全連接層:整合所有特徵,輸出最終分類分數。

局部特徵提取的關鍵機制:每個濾波器的權重由訓練資料自動學習,不需要人工設計,這是 CNN 相對傳統方法的最大突破。同一個濾波器在影像不同位置使用相同的權重(參數共享),使模型不受物體位置影響。

為什麼出題者要考這題:卷積層的功能定位是 CNN 架構理解的基礎,也是區分卷積層(特徵提取)、池化層(降維)、全連接層(分類)三種層的核心知識點。

05 陷阱

為什麼其他選項是錯的

B降低影像維度以加速運算效率

字面在說什麼

把大的影像縮小,減少計算量。

為什麼不對

降低影像維度是池化層(Pooling Layer)的主要功能(例如最大池化 Max Pooling),不是卷積層的工作。卷積層的輸出(特徵圖)通常和輸入的空間尺寸相近(或加上 padding 完全相同),並不縮小影像。

誰會選錯

知道 CNN 能處理大影像但不清楚各層分工的人。記住:卷積層提取特徵,池化層降維,全連接層分類,三個角色不能混淆。

C增加神經元與參數數量以提升模型容量

字面在說什麼

加更多神經元和參數,讓模型有更強的學習能力。

為什麼不對

卷積層的設計初衷恰恰相反:透過參數共享(同一濾波器在整張影像用同一組權重),大幅減少參數數量。一個 5×5 的濾波器只有 25 個參數,卻能掃整張影像,遠比全連接層高效。增加參數容量不是卷積層的職責。

誰會選錯

認為「模型要準就要參數多」的人。卷積層的精妙在於用少量參數捕捉空間特徵,而不是靠堆參數。

D整合所有特徵並輸出最終分類結果

字面在說什麼

把所有學到的東西整合起來,給出「是瑕疵 / 不是瑕疵」的結論。

為什麼不對

這是全連接層(Fully Connected Layer)的工作,位於 CNN 架構的最後幾層。第一層卷積層只是流程的起點,輸出的是特徵圖,不是分類結果。

誰會選錯

只知道 CNN 最終會輸出分類但不了解中間層分工的人。記住:分類是 CNN 最後做的事,第一層只是在「看局部長什麼樣」。

06 變形

同個考點下次怎麼變形

變形 1

池化層(Pooling Layer)的主要功能是什麼?

直覺

卷積層輸出的特徵圖還是很大,需要壓縮。

答案

池化層(通常是最大池化 Max Pooling)在每個小區域內取最大值,把特徵圖縮小(例如 4×4 壓成 2×2),降低計算量,同時增加對位置偏移的容忍度(物體移了幾個像素也不影響識別)。

變形 2

深層卷積層和第一層提取的特徵有什麼差異?

直覺

不同層提取的「東西」不一樣。

答案

第一層:低階特徵(邊緣、顏色梯度)。中間層:中階特徵(角點組合、紋路)。深層:高階語義特徵(眼睛輪廓、車牌形狀、裂紋模式)。層越深,特徵越抽象越具語義,感受野(覆蓋的像素範圍)越大。

變形 3

CNN 為什麼比全連接網路更適合處理影像?

直覺

影像有空間結構,相鄰像素有關聯性。

答案

CNN 透過局部感受野捕捉空間相鄰性、透過參數共享處理位置不變性,大幅減少參數量。全連接網路把影像展平成一維向量,完全失去空間資訊,且參數量隨影像大小指數增長,無法擴展到大圖。

變形 4

卷積核(Filter)是人工設計的還是自動學習的?

直覺

傳統影像處理有手工設計的濾波器(如 Sobel 邊緣濾波器)。

答案

CNN 的卷積核權重是由訓練資料自動學習的,不需要人工設計。這是 CNN 相對傳統影像處理最大的突破:模型根據任務需求自己「發明」最有用的濾波器。

變形 5

1×1 卷積有什麼用途?

直覺

1×1 的卷積核只看單個像素,感覺沒有捕捉空間特徵的能力。

答案

1×1 卷積不做空間特徵提取,而是做「通道融合」:把多個特徵圖(通道)線性組合,同時可以減少通道數(降維)或增加通道數,在 GoogLeNet、ResNet 等架構中廣泛使用來控制計算量。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 5 題

查看官方原文 PDF