iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

CNN 最適合哪種物流應用場景？

原題 48

某物流公司想導入 AI 以提升營運效率，評估不同資料型態與模型架構。下列哪一種應用情境最適合採用卷積神經網路（Convolutional Neural Network, CNN）作為主要模型架構？

白話

一家物流公司想導入 AI 以提升營運效率，正在評估不同資料型態與模型架構的搭配方式。

問你：下列哪一種應用情境最適合採用卷積神經網路（CNN）作為主要模型架構？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

CNN 是影像任務的首選架構，倉庫監視器影像的缺貨辨識，輸入是二維影像、需要識別空間位置，正是 CNN 最擅長的場景。

02　情境

先感受問題：倉庫這麼大，怎麼自動找出哪格貨架空了？

想像你是「迅達物流」的 AI 規劃師。倉庫有 5 層 200 個貨架，每個貨架有 20 個格子，共 4000 個存放位置。每天工人要花 2 小時走一遍確認哪裡缺貨，再通知補貨。

你在每個走道裝了監視器，每 5 分鐘拍一張照片。照片裡可以看到一整排貨架，哪些格子是空的一眼就能看出來（空格沒有商品，顏色和空間分佈跟滿格明顯不同）。

問題是：你有 200 個監視器，每 5 分鐘各拍一張，一天有 288 個時間點，每天有 57,600 張照片要檢查。人工根本看不完，你需要一個模型自動看照片、認出哪些格子是空的，並回傳「貨架 A3 第 5 格缺貨」這樣的資訊。

這個任務的輸入是影像，輸出是「哪個區域缺貨」的空間位置資訊，完美對應 CNN 的強項。

03　對照

沒有 CNN 時倉庫缺貨管理的五個痛點

人工巡視耗時：每天走遍整個倉庫需要 2 小時，這段時間內可能有貨架已空但無人知道，影響出貨速度
RFID 成本高：在每個商品貼 RFID 標籤可以追蹤庫存，但標籤和讀取設備費用極高，中小型倉庫難以負擔
感應器覆蓋不完整：重量感應器可以偵測單格是否有貨，但 4000 個格子要裝 4000 個感應器，維護成本高
巡視紀錄不即時：人工巡視每天一次，中間 23 小時如果補貨又賣空了沒有人知道
缺貨位置描述不精確：工人口頭回報「A 區貨不夠了」，倉管系統沒有精確到哪個格子，補貨效率低

「迅達物流」舊方法每天因為缺貨延誤出貨的訂單平均有 80 筆，每筆延誤罰款 500 元，一天就損失 4 萬元。

04　解法

CNN 怎麼從影像找出缺貨格

CNN 辨識缺貨的邏輯很直觀：空的貨架格子和滿的貨架格子，在影像上有顯著的視覺差異。滿格有商品的顏色、形狀、紋理；空格只有貨架的金屬底色。CNN 透過卷積層學會「什麼樣的視覺特徵代表有貨」「什麼代表沒貨」。

辨識流程：監視器每 5 分鐘拍照 → 送進 CNN 模型 → 模型輸出每個格子的狀態（有貨/缺貨）及位置座標 → 系統自動發出補貨通知「貨架 A3 第 5、12、19 格缺貨」。

CNN 為什麼適合：影像的空間結構很重要，左上角的空格和右下角的空格是不同位置的不同缺貨，CNN 的卷積核（Kernel）掃描影像時保留了空間位置資訊，能精確定位每個缺貨格子的座標。

導入 CNN 後，「迅達物流」的缺貨檢測從每天一次變成每 5 分鐘一次，缺貨延誤訂單從每天 80 筆降到 3 筆。

這就是選項 C 講的：根據倉庫監視器影像，自動辨識貨架是否缺貨並標示缺貨區域位置。

技術版：CNN 的強項和適用資料型態

CNN（Convolutional Neural Network，卷積神經網路）由 LeCun 等人在 1989 年提出，2012 年 AlexNet 在 ImageNet 競賽大獲全勝後成為電腦視覺的標準架構。CNN 的核心是卷積操作（Convolution）。

CNN 為什麼特別適合影像：

局部感受野：每個卷積核只看一小塊區域，學習局部特徵（邊緣、顏色塊）
參數共享：同一個卷積核在影像上滑動，偵測同樣的特徵不管在圖的哪個位置
空間層次：淺層學邊緣，深層學形狀，最深層學整個物體

CNN 不適合的資料型態：純時間序列資料（掃描紀錄、GPS 軌跡）沒有二維空間結構，RNN/LSTM 或 Transformer 更適合；文字序列（對話）的詞序關係不是空間關係，Transformer 更擅長。

CNN 的延伸：Object Detection（YOLO、Faster R-CNN）在 CNN 基礎上增加了位置預測，適合「找出物體在哪裡」；Semantic Segmentation（U-Net、DeepLab）為每個像素分類，適合「標示缺貨區域」這樣的精細任務。

為什麼出題者要考這題：AI 應用規劃師的核心能力之一是能根據資料型態選擇適當的模型架構。影像 → CNN、時序 → RNN/LSTM、文字 → Transformer，這三個對應是基本知識。

05　陷阱

為什麼其他選項是錯的

A依據包裹每日掃描紀錄的時間序列，預測下週各倉庫的進貨量波動

字面在說什麼

用歷史的每日掃描數量，預測未來 7 天的進貨量。資料是按時間排列的數值序列。

為什麼不對

時間序列資料（1 月 1 日 500 件，1 月 2 日 420 件，…）是一維序列，沒有影像的二維空間結構。CNN 的卷積核是設計來掃描二維影像的，用在一維時間序列上效果遠不如 LSTM 或 Transformer。

誰會選錯

記得「CNN 也可以用在 1D 時間序列（1D-CNN）」的人。確實有 1D-CNN，但題目問的是「最適合」，時序預測的最佳架構是 LSTM/GRU 或 Temporal Fusion Transformer，不是 CNN。

B根據客服對話逐句內容的先後順序，判斷客訴是否可能升級為申訴案件

字面在說什麼

對話有先後順序，前幾輪說了什麼影響後面的判斷，輸入是文字序列。

為什麼不對

文字序列的處理需要理解詞與詞的語意和順序關係，Transformer 架構（BERT、GPT）是目前文字理解任務的最佳架構。CNN 用在文字上效果有限，因為文字的「空間」意義不像影像那麼強。

誰會選錯

看到「先後順序」就聯想到 CNN「掃描序列」的人。雖然 TextCNN 存在且有用，但對話理解這種需要長距離語意關係的任務，Transformer 架構遠優於 CNN。

D依據車隊 GPS 路徑點的連續軌跡，預測下一段可能行駛路線

字面在說什麼

GPS 點按時間順序連成軌跡，根據過去走的路推測下一段路。

為什麼不對

GPS 軌跡是時間序列（每個時間點的座標），雖然有 x/y 兩個維度，但這是序列資料而非二維影像。路徑預測的核心是「前一步走了哪裡決定下一步」的時序依賴，RNN/LSTM 或 Transformer 更適合。如果把 GPS 軌跡轉成「路徑熱力圖」的影像格式，才能用 CNN。

誰會選錯

看到「連續路徑點」有 x/y 座標就想到二維影像的人。x/y 座標的時序資料是序列，不是圖片。只有把地圖本身當作影像輸入時，才是 CNN 的場景。

06　變形

同個考點下次怎麼變形

變形 1

RNN 和 LSTM 最適合處理什麼類型的資料？

直覺

CNN 是影像，那 RNN 和 LSTM 的主場是什麼？

答案

RNN（循環神經網路）和 LSTM（長短期記憶網路）最適合時序資料和序列資料，因為它們有「記憶」機制，能保留前面時間點的資訊來影響當前的預測。典型應用：時間序列預測、語言模型（預測下一個字）、語音辨識。RNN 的問題是記憶會隨時間衰退，LSTM 用門控機制改善了這個問題。

變形 2

Transformer 架構為什麼在文字任務上取代了 RNN/LSTM？

直覺

RNN 不是為序列設計的嗎，為什麼文字要改用 Transformer？

答案

RNN 必須按照時間順序一步一步處理，無法平行化，訓練很慢。而且長文本中早期的資訊傳到後面會衰減（梯度消失）。Transformer 的自注意力機制（Self-Attention）讓每個位置都能直接「看到」所有其他位置，不需要逐步傳遞，訓練速度快很多，對長距離依賴的處理也更好，這就是 GPT 和 BERT 的核心架構。

變形 3

什麼樣的醫療影像任務適合用 CNN？

直覺

CNN 在物流倉庫有用，在醫療也一樣適用嗎？

答案

非常適合。典型應用包括：X 光片辨識肺炎（分類任務）、病理切片辨識癌細胞（分類+定位）、眼底照片辨識糖尿病視網膜病變（分類）、MRI 影像的腫瘤分割（語義分割）。醫療影像任務的輸入都是二維或三維影像，CNN 是最自然的選擇。

變形 4

CNN 和全連接網路（Fully Connected Network）處理影像的效率差在哪裡？

直覺

全連接網路也能處理影像，為什麼還要 CNN？

答案

一張 1080p 影像有 1920×1080×3 = 620 萬個像素。全連接網路把每個像素都當成獨立輸入，第一層就需要 620 萬個參數，整個網路的參數量是天文數字，完全無法訓練。CNN 用共享卷積核，整個影像用同一組參數掃描，參數量從百萬降到幾千，訓練可行，而且保留了空間位置資訊。

變形 5

音訊（如語音、音樂）適合用 CNN 處理嗎？

直覺

音訊是時序資料，應該用 RNN？

答案

音訊通常先轉換成頻譜圖（Spectrogram），把聲音的「時間×頻率」分佈視覺化成一張二維圖片，再用 CNN 處理這張圖片。這樣就把時序資料轉換成影像任務。例如：音樂分類、環境聲音辨識常用這個方法。純時序的音訊也可以直接用 1D-CNN 或 WaveNet，但轉頻譜圖用 2D-CNN 是更常見的做法。

07　延伸

想再往下看，這 5 個

卷積神經網路（CNN）透過卷積操作提取影像局部特徵的神經網路架構，是電腦視覺任務的標準選擇，適合任何有二維空間結構的資料輸入
電腦視覺（Computer Vision）讓電腦理解和解釋影像的 AI 領域，涵蓋影像分類、物體偵測、語義分割、人臉辨識等任務，CNN 是其核心架構
物體偵測（Object Detection）不只辨識影像中有什麼物體（分類），還要輸出物體的位置座標（邊界框），YOLO 和 Faster R-CNN 是代表架構，適合「缺貨在哪個格子」這類任務
LSTM（長短期記憶網路）改良版的 RNN，用門控機制解決梯度消失問題，能有效處理長序列依賴，是時序預測和語音辨識的常用架構
Transformer基於自注意力機制的神經網路架構，能平行處理序列中所有位置的關係，是現代語言模型（GPT、BERT）的基礎，逐漸在多個領域取代 CNN 和 RNN