iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

沒有異常標籤，怎麼訓練異常偵測？

原題 22

某製造業工廠規劃導入 AI 監控系統，持續分析設備感測數據（如溫度、震動與壓力）。系統需能在缺乏完整異常標註資料的情況下，辨識與一般運作型態顯著不同的狀態，並發出預警。在此需求下，下列何種技術較為適合？

白話

一間製造業工廠要用 AI 監控設備的溫度、震動、壓力等感測數據。系統必須在缺乏完整異常標註資料的情況下，仍能辨識出與一般運作型態顯著不同的狀態，並發出預警。

問你：在這個缺乏異常標籤的條件下，哪種技術較為適合？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

沒有異常標籤時，用 VAE 學習正常資料長什麼樣，重建誤差大的就是異常。

02　情境

先感受問題：設備壞掉前你怎麼知道？

假設你是「台灣精機」工廠的設備管理工程師。廠裡有 200 台壓縮機，每台每秒都在回傳溫度、震動、壓力三個數字。

過去五年，設備真正發生「異常故障」的次數：總共 12 次。

這 12 次資料加起來，跟每天產生的幾百萬筆正常數據比起來，幾乎是零。

主管說：「我要一個 AI，能在設備快壞掉之前就提前示警。」

問題來了：AI 要學「異常長什麼樣」，但你只有 12 筆異常，根本不夠訓練一個能認識各種異常的分類模型。你能用的，就只有幾百萬筆「正常運作」的資料。

03　對照

只靠有標籤的異常資料，會撞牆

傳統做法是「有什麼異常就學什麼異常」，但在這個場景會遇到五個根本問題：

異常標籤太少：12 筆 vs 數百萬筆，訓練出來的模型嚴重不平衡，幾乎什麼都預測為「正常」
異常類型不固定：壓縮機可能以 20 種不同方式壞掉，只有 12 筆根本覆蓋不了
未見過的新型異常認不出：模型只認識學過的異常模式，遇到沒見過的新故障型態，照樣放行
標註成本極高：要讓設備真的壞一次才能收集一筆異常資料，現實中不可能刻意製造故障
定義模糊：「異常」的邊界在哪裡？溫度超過幾度才算異常？不同設備、不同季節的閾值都不同，很難寫死規則

04　解法

VAE 怎麼在沒有異常標籤的情況下發現異常

VAE（Variational Autoencoder，變分自編碼器）的思路完全反過來：不學「異常是什麼」，改學「正常是什麼」。

把「台灣精機」幾百萬筆正常運作的溫度、震動、壓力數據餵進 VAE，讓它學習「正常設備的運作模式」，也就是正常資料的分佈（distribution）。

學完之後，VAE 能做一件事：給它一筆新資料，它會嘗試把它壓縮再重建出來。正常的資料，重建的結果跟原來很像；異常的資料，重建出來的結果會跟原來差很多。

這個差距叫做重建誤差（Reconstruction Error）。設定一個閾值：重建誤差超過閾值，就發出預警。

「台灣精機」的系統上線後，壓縮機在震動頻率出現微小漂移時，VAE 的重建誤差就開始上升。三天後，工程師去現場檢查，發現軸承已磨損，在真正故障前完成更換。

這就是選項 C 講的：採用變分自編碼器（VAE）學習正常資料分佈，當新資料偏離正常分佈時即發出預警。

技術版：VAE 在工業異常偵測中的位置

VAE 屬於什麼領域：VAE 是深度學習中的生成模型（Generative Model），同時也是無監督學習（Unsupervised Learning）的一種。它不需要標籤，只學資料本身的結構。

為什麼是 VAE 而不是普通的自編碼器（AE）：普通 AE 學到的是確定性的壓縮，VAE 學到的是機率分佈。VAE 用隱空間（Latent Space）的機率分佈來表示「正常」，這讓它對異常的偵測更穩定、更有統計意義，不容易被單一雜訊誤報。

實務上誰在用：製造業的預測性維護（Predictive Maintenance）、網路安全的入侵偵測、金融的詐欺交易偵測，這些場景都有「正常資料多、異常資料少」的特性，VAE 是業界常見選擇。

與 GAN 的差異：GAN 也是生成模型，但 GAN 的訓練難度高（容易模式崩潰），且 GAN 主要設計用來生成資料，不是直接拿來做異常偵測。VAE 結構更穩定，重建誤差的計算也更直觀。

為什麼出題者要考這題：AI 應用規劃師要能在「資料不完整」的現實場景下選對模型。缺乏標籤是工業 AI 最常見的挑戰，知道哪些技術可以在無標籤或少標籤情況下工作，是規劃師的核心判斷力。

05　陷阱

為什麼其他選項是錯的

A使用支援向量機（SVM）建立異常分類模型

字面在說什麼

用 SVM 訓練一個分類器，能把資料分成「正常」和「異常」兩類。

為什麼不對

SVM 是監督式學習，需要同時有正常和異常的標籤才能訓練。題目明確說「缺乏完整異常標註資料」，SVM 訓練不起來。雖然有一種特殊變體叫 One-Class SVM 可以用於異常偵測，但題目選項直接說「建立異常分類模型」，意味著需要正負兩類標籤。

誰會選錯

知道 SVM 是強分類器就直覺選 A 的人。SVM 很強，但前提是資料要有標籤，沒有標籤的異常資料，SVM 根本沒有辦法學。

B以決策樹（Decision Tree）學習異常類型的判斷規則

字面在說什麼

用決策樹把感測數據按規則分類，找出哪些條件組合會導致異常。

為什麼不對

決策樹也是監督式學習，需要標記好的訓練資料才能建立規則。更重要的是，「學習異常類型的判斷規則」意味著你要先知道有哪些異常類型，才能讓樹去學，但題目的情境是根本沒有充分的異常樣本。

誰會選錯

覺得「判斷規則」這幾個字很直觀，工廠就是要訂規則嘛，所以選 B。但決策樹的規則來自訓練資料中的標籤，不是人工設定的閾值，沒有標籤就沒有規則。

D使用生成對抗網路（GAN）直接預測異常標籤

字面在說什麼

用 GAN 來判斷每筆感測數據是否為異常，並給出異常標籤。

為什麼不對

GAN 的設計目的是生成逼真的資料（讓生成器欺騙判別器），而不是直接做異常標籤的預測。更重要的是，「直接預測異常標籤」這個說法本身有問題，因為我們就是因為缺乏異常標籤才來找解決方案，GAN 無法憑空生出正確標籤。

變分自編碼器（Variational Autoencoder）學習資料機率分佈的生成模型，透過重建誤差識別偏離正常分布的異常點，是無標籤異常偵測的首選
異常偵測（Anomaly Detection）識別與正常模式顯著不同的資料點，設備監控、網路安全、金融詐欺偵測均是其核心應用場景
非監督式學習（Unsupervised Learning）無需標籤資料的機器學習方法，VAE 屬於此類，在異常資料稀缺的工業場景中是監督學習的替代方案
資料不平衡（Data Imbalance）正常資料遠多於異常資料的問題，是製造業 AI 最常見挑戰，也是選擇無監督方法而非監督分類器的主因
監督式學習（Supervised Learning）需要標籤資料訓練的方法，當異常標籤充足時比 VAE 更準確，但在稀缺標籤場景中不適用