iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

CNN 第一層卷積層主要做什麼？

原題 05

某智慧製造公司開發一套影像辨識系統，用於自動檢測生產線上的瑕疵產品。系統採用卷積神經網路（Convolutional Neural Network, CNN）作為主要模型架構，其中第一層卷積層（Convolutional Layer）主要負責的功能為下列何者？

白話

一家智慧製造公司用 CNN 做影像辨識來偵測瑕疵品。CNN 架構裡有很多層，題目在問最前面那層：第一層卷積層在整個流程中負責做哪件事？

問你：CNN 第一層卷積層的主要功能是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

CNN 第一層卷積層的主要工作是自動提取輸入影像中的局部特徵，例如邊緣、角點、紋路，這些是後續層識別更複雜圖案的基礎材料。

02　情境

先感受問題：機器怎麼「看」出瑕疵

台達電的生產線每分鐘跑出幾百個電容器，品管員要目視檢查每一顆有沒有裂痕、缺角、污漬。這顯然做不完，於是導入了 CNN 影像辨識系統。

機器要怎麼「看懂」一張照片裡哪裡有瑕疵？

人的視覺系統是先「看見邊緣和輪廓」，再組合成物體，再判斷有沒有異常。
CNN 的做法類似：第一層先找出影像的基本元素（邊緣、角點、顏色轉折），後面的層再把這些元素組合成「裂痕」「缺角」這類高階特徵，最後判斷是否為瑕疵。

所以第一層卷積層的任務是：從原始像素裡抓出那些基本的視覺元素，也就是「局部特徵」。

03　對照

沒有卷積層的舊方法有什麼問題

手工特徵工程費時費力：傳統方法需要工程師手動設計「偵測裂痕的濾波器」，一種瑕疵寫一組規則，新產品換線就要重寫。
全連接網路參數爆炸：一張 256×256 的灰階圖有 65,536 個像素，如果每個像素都連到下一層的每個神經元，參數量天文數字，根本無法訓練。
無法捕捉空間關係：純像素值不含位置資訊，左邊和右邊的像素在全連接網路裡被當作獨立輸入，完全忽略空間結構。
泛化能力差：手工規則對特定角度、光線的瑕疵能抓到，稍微換個情境就失準。
可解釋性低：數千條規則堆疊，工程師也搞不清楚哪條規則在做什麼。

04　解法

卷積層怎麼自動提取局部特徵

卷積層用一組可學習的「濾波器」（Filter，也叫卷積核）在影像上滑動，每次只看一個小區域（例如 3×3 或 5×5 的像素塊），計算這個小區域和濾波器的相似度，輸出一個數值。

這個「只看一個小區域」的動作，就是「提取局部特徵」的本質：

某個濾波器學會「偵測水平邊緣」，掃到水平線時輸出高值，掃到均勻區域輸出低值。
另一個濾波器學會「偵測左斜邊緣」。
第一層的 32 個濾波器各自學一種局部特徵，整張影像掃完後輸出 32 張「特徵圖」。

台達電的瑕疵檢測系統：第一層卷積層從電容器照片中提取出邊緣、紋路資訊，後面幾層再組合成「裂紋形狀」「缺角形狀」，最後輸出「正常」或「瑕疵」。

這就是選項 A 講的：自動提取輸入影像中的局部特徵。

技術版：CNN 卷積層在電腦視覺中的核心地位

CNN（卷積神經網路）屬於電腦視覺（Computer Vision）領域，是影像分類、物件偵測、影像分割的基礎模型架構，自 2012 年 AlexNet 在 ImageNet 競賽奪冠後成為業界標準。

CNN 的分層結構與功能：

第一層卷積層：提取低階局部特徵（邊緣、角點、顏色梯度）。
中間卷積層：組合低階特徵成中階特徵（眼睛形狀、圓弧、紋路）。
深層卷積層：組合成高階語義特徵（人臉、車輪、裂縫）。
池化層（Pooling Layer）：每隔幾層降低空間維度，減少計算量。
全連接層：整合所有特徵，輸出最終分類分數。

局部特徵提取的關鍵機制：每個濾波器的權重由訓練資料自動學習，不需要人工設計，這是 CNN 相對傳統方法的最大突破。同一個濾波器在影像不同位置使用相同的權重（參數共享），使模型不受物體位置影響。

為什麼出題者要考這題：卷積層的功能定位是 CNN 架構理解的基礎，也是區分卷積層（特徵提取）、池化層（降維）、全連接層（分類）三種層的核心知識點。

05　陷阱

為什麼其他選項是錯的

B降低影像維度以加速運算效率

字面在說什麼

把大的影像縮小，減少計算量。

為什麼不對

降低影像維度是池化層（Pooling Layer）的主要功能（例如最大池化 Max Pooling），不是卷積層的工作。卷積層的輸出（特徵圖）通常和輸入的空間尺寸相近（或加上 padding 完全相同），並不縮小影像。

誰會選錯

知道 CNN 能處理大影像但不清楚各層分工的人。記住：卷積層提取特徵，池化層降維，全連接層分類，三個角色不能混淆。

C增加神經元與參數數量以提升模型容量

字面在說什麼

加更多神經元和參數，讓模型有更強的學習能力。

為什麼不對

卷積層的設計初衷恰恰相反：透過參數共享（同一濾波器在整張影像用同一組權重），大幅減少參數數量。一個 5×5 的濾波器只有 25 個參數，卻能掃整張影像，遠比全連接層高效。增加參數容量不是卷積層的職責。

誰會選錯

認為「模型要準就要參數多」的人。卷積層的精妙在於用少量參數捕捉空間特徵，而不是靠堆參數。

D整合所有特徵並輸出最終分類結果

字面在說什麼

把所有學到的東西整合起來，給出「是瑕疵 / 不是瑕疵」的結論。

為什麼不對

這是全連接層（Fully Connected Layer）的工作，位於 CNN 架構的最後幾層。第一層卷積層只是流程的起點，輸出的是特徵圖，不是分類結果。

誰會選錯

只知道 CNN 最終會輸出分類但不了解中間層分工的人。記住：分類是 CNN 最後做的事，第一層只是在「看局部長什麼樣」。

06　變形

同個考點下次怎麼變形

變形 1

池化層（Pooling Layer）的主要功能是什麼？

直覺

卷積層輸出的特徵圖還是很大，需要壓縮。

答案

池化層（通常是最大池化 Max Pooling）在每個小區域內取最大值，把特徵圖縮小（例如 4×4 壓成 2×2），降低計算量，同時增加對位置偏移的容忍度（物體移了幾個像素也不影響識別）。

變形 2

深層卷積層和第一層提取的特徵有什麼差異？

直覺

不同層提取的「東西」不一樣。

答案

第一層：低階特徵（邊緣、顏色梯度）。中間層：中階特徵（角點組合、紋路）。深層：高階語義特徵（眼睛輪廓、車牌形狀、裂紋模式）。層越深，特徵越抽象越具語義，感受野（覆蓋的像素範圍）越大。

變形 3

CNN 為什麼比全連接網路更適合處理影像？

直覺

影像有空間結構，相鄰像素有關聯性。

答案

CNN 透過局部感受野捕捉空間相鄰性、透過參數共享處理位置不變性，大幅減少參數量。全連接網路把影像展平成一維向量，完全失去空間資訊，且參數量隨影像大小指數增長，無法擴展到大圖。

變形 4

卷積核（Filter）是人工設計的還是自動學習的？

直覺

傳統影像處理有手工設計的濾波器（如 Sobel 邊緣濾波器）。

答案

CNN 的卷積核權重是由訓練資料自動學習的，不需要人工設計。這是 CNN 相對傳統影像處理最大的突破：模型根據任務需求自己「發明」最有用的濾波器。

變形 5

1×1 卷積有什麼用途？

直覺

1×1 的卷積核只看單個像素，感覺沒有捕捉空間特徵的能力。

答案

1×1 卷積不做空間特徵提取，而是做「通道融合」：把多個特徵圖（通道）線性組合，同時可以減少通道數（降維）或增加通道數，在 GoogLeNet、ResNet 等架構中廣泛使用來控制計算量。

07　延伸

想再往下看，這 5 個

CNN（卷積神經網路）本題主角，透過卷積層提取局部特徵，是電腦視覺的基礎架構。
特徵擷取（Feature Extraction）卷積層的核心工作，自動從原始資料中找出有意義的表示。
電腦視覺（Computer Vision）CNN 最主要的應用領域，包括影像分類、物件偵測、影像分割。
圖像分類（Image Classification）CNN 最基礎的電腦視覺任務，如瑕疵品判斷是正常還是異常。
遷移學習（Transfer Learning）實務上常把 ImageNet 預訓練的 CNN 第一層特徵提取權重直接用在新任務，不需從頭訓練。