iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

CNN 最適合哪種物流應用場景?

原題 48

某物流公司想導入 AI 以提升營運效率,評估不同資料型態與模型架構。下列哪一種應用情境最適合採用卷積神經網路(Convolutional Neural Network, CNN)作為主要模型架構?

白話

一家物流公司想導入 AI 以提升營運效率,正在評估不同資料型態與模型架構的搭配方式。

問你:下列哪一種應用情境最適合採用卷積神經網路(CNN)作為主要模型架構?

點選你的答案。

01 總結

一句話總結

CNN 是影像任務的首選架構,倉庫監視器影像的缺貨辨識,輸入是二維影像、需要識別空間位置,正是 CNN 最擅長的場景

02 情境

先感受問題:倉庫這麼大,怎麼自動找出哪格貨架空了?

想像你是「迅達物流」的 AI 規劃師。倉庫有 5 層 200 個貨架,每個貨架有 20 個格子,共 4000 個存放位置。每天工人要花 2 小時走一遍確認哪裡缺貨,再通知補貨。

你在每個走道裝了監視器,每 5 分鐘拍一張照片。照片裡可以看到一整排貨架,哪些格子是空的一眼就能看出來(空格沒有商品,顏色和空間分佈跟滿格明顯不同)。

問題是:你有 200 個監視器,每 5 分鐘各拍一張,一天有 288 個時間點,每天有 57,600 張照片要檢查。人工根本看不完,你需要一個模型自動看照片、認出哪些格子是空的,並回傳「貨架 A3 第 5 格缺貨」這樣的資訊。

這個任務的輸入是影像,輸出是「哪個區域缺貨」的空間位置資訊,完美對應 CNN 的強項。

03 對照

沒有 CNN 時倉庫缺貨管理的五個痛點

  1. 人工巡視耗時:每天走遍整個倉庫需要 2 小時,這段時間內可能有貨架已空但無人知道,影響出貨速度
  2. RFID 成本高:在每個商品貼 RFID 標籤可以追蹤庫存,但標籤和讀取設備費用極高,中小型倉庫難以負擔
  3. 感應器覆蓋不完整:重量感應器可以偵測單格是否有貨,但 4000 個格子要裝 4000 個感應器,維護成本高
  4. 巡視紀錄不即時:人工巡視每天一次,中間 23 小時如果補貨又賣空了沒有人知道
  5. 缺貨位置描述不精確:工人口頭回報「A 區貨不夠了」,倉管系統沒有精確到哪個格子,補貨效率低

「迅達物流」舊方法每天因為缺貨延誤出貨的訂單平均有 80 筆,每筆延誤罰款 500 元,一天就損失 4 萬元。

04 解法

CNN 怎麼從影像找出缺貨格

CNN 辨識缺貨的邏輯很直觀:空的貨架格子和滿的貨架格子,在影像上有顯著的視覺差異。滿格有商品的顏色、形狀、紋理;空格只有貨架的金屬底色。CNN 透過卷積層學會「什麼樣的視覺特徵代表有貨」「什麼代表沒貨」。

辨識流程:監視器每 5 分鐘拍照 → 送進 CNN 模型 → 模型輸出每個格子的狀態(有貨/缺貨)及位置座標 → 系統自動發出補貨通知「貨架 A3 第 5、12、19 格缺貨」。

CNN 為什麼適合:影像的空間結構很重要,左上角的空格和右下角的空格是不同位置的不同缺貨,CNN 的卷積核(Kernel)掃描影像時保留了空間位置資訊,能精確定位每個缺貨格子的座標。

導入 CNN 後,「迅達物流」的缺貨檢測從每天一次變成每 5 分鐘一次,缺貨延誤訂單從每天 80 筆降到 3 筆。

這就是選項 C 講的:根據倉庫監視器影像,自動辨識貨架是否缺貨並標示缺貨區域位置

技術版:CNN 的強項和適用資料型態

CNN(Convolutional Neural Network,卷積神經網路)由 LeCun 等人在 1989 年提出,2012 年 AlexNet 在 ImageNet 競賽大獲全勝後成為電腦視覺的標準架構。CNN 的核心是卷積操作(Convolution)。

CNN 為什麼特別適合影像:

  • 局部感受野:每個卷積核只看一小塊區域,學習局部特徵(邊緣、顏色塊)
  • 參數共享:同一個卷積核在影像上滑動,偵測同樣的特徵不管在圖的哪個位置
  • 空間層次:淺層學邊緣,深層學形狀,最深層學整個物體

CNN 不適合的資料型態:純時間序列資料(掃描紀錄、GPS 軌跡)沒有二維空間結構,RNN/LSTM 或 Transformer 更適合;文字序列(對話)的詞序關係不是空間關係,Transformer 更擅長。

CNN 的延伸:Object Detection(YOLO、Faster R-CNN)在 CNN 基礎上增加了位置預測,適合「找出物體在哪裡」;Semantic Segmentation(U-Net、DeepLab)為每個像素分類,適合「標示缺貨區域」這樣的精細任務。

為什麼出題者要考這題:AI 應用規劃師的核心能力之一是能根據資料型態選擇適當的模型架構。影像 → CNN、時序 → RNN/LSTM、文字 → Transformer,這三個對應是基本知識。

05 陷阱

為什麼其他選項是錯的

A依據包裹每日掃描紀錄的時間序列,預測下週各倉庫的進貨量波動

字面在說什麼

用歷史的每日掃描數量,預測未來 7 天的進貨量。資料是按時間排列的數值序列。

為什麼不對

時間序列資料(1 月 1 日 500 件,1 月 2 日 420 件,…)是一維序列,沒有影像的二維空間結構。CNN 的卷積核是設計來掃描二維影像的,用在一維時間序列上效果遠不如 LSTM 或 Transformer。

誰會選錯

記得「CNN 也可以用在 1D 時間序列(1D-CNN)」的人。確實有 1D-CNN,但題目問的是「最適合」,時序預測的最佳架構是 LSTM/GRU 或 Temporal Fusion Transformer,不是 CNN。

B根據客服對話逐句內容的先後順序,判斷客訴是否可能升級為申訴案件

字面在說什麼

對話有先後順序,前幾輪說了什麼影響後面的判斷,輸入是文字序列。

為什麼不對

文字序列的處理需要理解詞與詞的語意和順序關係,Transformer 架構(BERT、GPT)是目前文字理解任務的最佳架構。CNN 用在文字上效果有限,因為文字的「空間」意義不像影像那麼強。

誰會選錯

看到「先後順序」就聯想到 CNN「掃描序列」的人。雖然 TextCNN 存在且有用,但對話理解這種需要長距離語意關係的任務,Transformer 架構遠優於 CNN。

D依據車隊 GPS 路徑點的連續軌跡,預測下一段可能行駛路線

字面在說什麼

GPS 點按時間順序連成軌跡,根據過去走的路推測下一段路。

為什麼不對

GPS 軌跡是時間序列(每個時間點的座標),雖然有 x/y 兩個維度,但這是序列資料而非二維影像。路徑預測的核心是「前一步走了哪裡決定下一步」的時序依賴,RNN/LSTM 或 Transformer 更適合。如果把 GPS 軌跡轉成「路徑熱力圖」的影像格式,才能用 CNN。

誰會選錯

看到「連續路徑點」有 x/y 座標就想到二維影像的人。x/y 座標的時序資料是序列,不是圖片。只有把地圖本身當作影像輸入時,才是 CNN 的場景。

06 變形

同個考點下次怎麼變形

變形 1

RNN 和 LSTM 最適合處理什麼類型的資料?

直覺

CNN 是影像,那 RNN 和 LSTM 的主場是什麼?

答案

RNN(循環神經網路)和 LSTM(長短期記憶網路)最適合時序資料和序列資料,因為它們有「記憶」機制,能保留前面時間點的資訊來影響當前的預測。典型應用:時間序列預測、語言模型(預測下一個字)、語音辨識。RNN 的問題是記憶會隨時間衰退,LSTM 用門控機制改善了這個問題。

變形 2

Transformer 架構為什麼在文字任務上取代了 RNN/LSTM?

直覺

RNN 不是為序列設計的嗎,為什麼文字要改用 Transformer?

答案

RNN 必須按照時間順序一步一步處理,無法平行化,訓練很慢。而且長文本中早期的資訊傳到後面會衰減(梯度消失)。Transformer 的自注意力機制(Self-Attention)讓每個位置都能直接「看到」所有其他位置,不需要逐步傳遞,訓練速度快很多,對長距離依賴的處理也更好,這就是 GPT 和 BERT 的核心架構。

變形 3

什麼樣的醫療影像任務適合用 CNN?

直覺

CNN 在物流倉庫有用,在醫療也一樣適用嗎?

答案

非常適合。典型應用包括:X 光片辨識肺炎(分類任務)、病理切片辨識癌細胞(分類+定位)、眼底照片辨識糖尿病視網膜病變(分類)、MRI 影像的腫瘤分割(語義分割)。醫療影像任務的輸入都是二維或三維影像,CNN 是最自然的選擇。

變形 4

CNN 和全連接網路(Fully Connected Network)處理影像的效率差在哪裡?

直覺

全連接網路也能處理影像,為什麼還要 CNN?

答案

一張 1080p 影像有 1920×1080×3 = 620 萬個像素。全連接網路把每個像素都當成獨立輸入,第一層就需要 620 萬個參數,整個網路的參數量是天文數字,完全無法訓練。CNN 用共享卷積核,整個影像用同一組參數掃描,參數量從百萬降到幾千,訓練可行,而且保留了空間位置資訊。

變形 5

音訊(如語音、音樂)適合用 CNN 處理嗎?

直覺

音訊是時序資料,應該用 RNN?

答案

音訊通常先轉換成頻譜圖(Spectrogram),把聲音的「時間×頻率」分佈視覺化成一張二維圖片,再用 CNN 處理這張圖片。這樣就把時序資料轉換成影像任務。例如:音樂分類、環境聲音辨識常用這個方法。純時序的音訊也可以直接用 1D-CNN 或 WaveNet,但轉頻譜圖用 2D-CNN 是更常見的做法。

07 延伸

想再往下看,這 5 個

  • 卷積神經網路(CNN)透過卷積操作提取影像局部特徵的神經網路架構,是電腦視覺任務的標準選擇,適合任何有二維空間結構的資料輸入
  • 電腦視覺(Computer Vision)讓電腦理解和解釋影像的 AI 領域,涵蓋影像分類、物體偵測、語義分割、人臉辨識等任務,CNN 是其核心架構
  • 物體偵測(Object Detection)不只辨識影像中有什麼物體(分類),還要輸出物體的位置座標(邊界框),YOLO 和 Faster R-CNN 是代表架構,適合「缺貨在哪個格子」這類任務
  • LSTM(長短期記憶網路)改良版的 RNN,用門控機制解決梯度消失問題,能有效處理長序列依賴,是時序預測和語音辨識的常用架構
  • Transformer基於自注意力機制的神經網路架構,能平行處理序列中所有位置的關係,是現代語言模型(GPT、BERT)的基礎,逐漸在多個領域取代 CNN 和 RNN
出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 48 題

查看官方原文 PDF