iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

即時監控大量 IoT 裝置要用什麼組合？

原題 11

若一家公司需即時監控大量物聯網裝置的異常行為，下列哪一種組合最適合此應用？

白話

一家公司有大量物聯網（IoT）裝置，需要即時監控這些裝置是否有異常行為。

問你：面對大量 IoT 裝置的即時異常監控，哪一種技術組合最合適？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

即時監控大量 IoT 裝置異常，需要的是：大數據平台（處理海量數據）加上即時資料分析技術（毫秒級回應），兩者缺一不可。

02　情境

先感受問題：工廠 5000 台機器要「同時盯著」

智誠製造的工廠裡有 5000 台生產設備，每台都裝了溫度、震動、電流感測器，每秒回傳一次數據。

資訊長阿發的需求是：任何一台機器出現異常（溫度突然飆高、震動值超標），系統要在 1 秒內發出警報，讓維修人員立刻介入，避免停線損失。

問題是：5000 台 × 3 個感測器 × 每秒 1 筆 = 每秒 15,000 筆資料。一天就是 13 億筆。傳統的作法完全撐不住這個規模和速度要求。

03　對照

傳統方法為什麼應付不了 IoT 即時監控

傳統關聯式資料庫的寫入瓶頸：MySQL、PostgreSQL 等關聯式資料庫面對每秒萬筆以上的高頻寫入，很快就會出現鎖定（Lock）衝突和寫入延遲，根本無法支撐 5000 台設備同時回傳資料的需求。
批次處理的時間延遲：批次處理（Batch Processing）是累積一段時間的資料再一起算，例如每小時跑一次分析。但異常監控要求秒級回應，批次根本無法做到「即時」，機器壞了 1 小時後才發現已來不及。
單機計算容量不足：一台伺服器的 CPU 和記憶體有限，無法同時處理數千個裝置的串流資料，水平擴展需要有大數據平台架構支撐。
手動標註無法擴展：靠人工看資料找異常根本跟不上資料產生速度，人類每天只能看幾百筆，機器每秒產生一萬多筆。
靜態規則無法適應動態環境：不同機器的「正常範圍」會隨生產批次、天氣、磨損程度改變，固定閾值的監控系統誤報率高、漏報率也高。

04　解法

大數據平台處理量，即時分析技術保速度

智誠製造的解法分兩層：

第一層：大數據平台（Big Data Platform），例如 Apache Kafka 做資料收集匯流，Apache Flink 或 Spark Streaming 做分散式即時運算。這層解決「量」的問題，讓系統可以水平擴展到處理數萬台裝置。

第二層：即時資料分析技術（Real-time Analytics），在資料流入的當下就做異常偵測（Anomaly Detection）計算，不等累積。當任一設備的指標超出動態閾值，立刻觸發警報。

兩層組合起來：大數據平台撐住海量高頻寫入，即時分析技術保證毫秒到秒級的回應時間。這正是 IoT 異常監控場景的標準架構。

這就是選項 C 講的：大數據平台+即時資料分析技術。

技術版：IoT 即時監控的典型架構元件

IoT 即時異常監控的標準技術棧通常長這樣：

資料收集層：感測器 → MQTT Broker（輕量級物聯網訊息協定）或 Apache Kafka（高吞吐量訊息佇列）。Kafka 的每個分區（Partition）可以每秒處理數萬則訊息，支援多消費者並行讀取。

串流處理層：Apache Flink 或 Spark Streaming 接收 Kafka 資料，做滑動視窗（Sliding Window）計算。例如：「過去 60 秒內，某台機器的溫度均值是否超過 85°C？」只需要用 5 行程式碼就能定義這個邏輯。

異常偵測層：可以是統計方法（Z 分數、IQR）或機器學習模型（Isolation Forest、Autoencoder）。串流處理框架在每條新資料進來時套用模型，輸出「正常」或「異常」標籤。

大數據平台 vs 傳統資料庫的關鍵差異：

傳統 RDBMS：強一致性、ACID 交易、適合結構化查詢，但寫入吞吐量有限（約每秒萬筆以下）。
大數據平台（Kafka + Flink/Spark）：設計為高吞吐量、低延遲的串流處理，可水平擴展到每秒百萬筆，但犧牲部分一致性保證。

為什麼「批次處理」不行：批次（Batch）是 T+N 模式，資料累積到一定量才分析。即時（Real-time）是 T+0，資料進來馬上算。IoT 異常監控要求的是後者。Spark 同時支援批次（RDD/DataFrame API）和串流（Structured Streaming），但你要明確用串流模式才能即時。

05　陷阱

為什麼其他選項是錯的

A傳統關聯式資料庫+圖形視覺化

字面在說什麼

用 MySQL/PostgreSQL 這類關聯式資料庫儲存 IoT 資料，再搭配圖表工具做視覺化展示。

為什麼不對

傳統關聯式資料庫在高頻、高吞吐量寫入場景下效能嚴重不足。5000 台裝置每秒 15,000 筆的寫入會讓關聯式資料庫迅速到達瓶頸，而且圖形視覺化是「看歷史資料」，不是「即時偵測異常」。視覺化呈現只是輔助工具，不能替代即時計算邏輯。

誰會選錯

對資料庫最熟悉、習慣用 SQL 解決所有問題的人。關聯式資料庫在這個場景的問題不是功能不夠，而是規模和速度根本不匹配。

B批次資料處理+雲端備份

字面在說什麼

把資料累積起來定期批次處理，然後備份到雲端。

為什麼不對

批次處理有固有的時間延遲，通常是分鐘到小時級，完全無法滿足「即時監控」的需求。雲端備份更是災難復原用途，與異常偵測根本是兩回事。這個組合適合的是「事後分析歷史資料」，不是「即時偵測並警報」。

誰會選錯

把「資料處理」等同於「批次處理」的人，或者覺得只要有雲端就夠的人。批次和即時串流是兩種根本不同的計算模式。

DWord 文件+手動標註

字面在說什麼

用 Word 文件記錄資料，再由人工標記哪些是異常。

為什麼不對

這個選項根本不是技術方案，完全不具備任何擴展性。每秒 15,000 筆資料人工標記是物理不可能的事，而且 Word 文件不是資料庫，不支援結構化查詢或自動化處理。這個選項的存在是為了測試考生是否具備基本的技術常識。

誰會選錯

幾乎不會有人選這個，它是用來確認考生有基本的技術判斷力。

06　變形

同個考點下次怎麼變形

變形 1

在 IoT 即時監控場景，Apache Kafka 主要扮演什麼角色？

直覺

Kafka 常出現在 IoT 架構中，但它到底是資料庫還是什麼？

答案

Kafka 是高吞吐量的訊息佇列（Message Queue）暨串流平台。感測器把資料送進 Kafka 的 Topic，下游的串流處理框架（Flink/Spark）從 Topic 讀取並即時計算。Kafka 在這裡的核心價值是「緩衝」和「解耦」：即使下游處理速度稍慢，資料也不會遺失，並可被多個消費者同時讀取。

變形 2

批次處理和串流處理的根本差異是什麼？

直覺

都是「處理資料」，有什麼本質不同？

答案

批次處理（Batch Processing）是把一段時間內的資料收集好後一起計算，延遲從分鐘到小時不等，適合離線分析和報表生成。串流處理（Stream Processing）是資料「來一筆算一筆」或「來一批小批馬上算」，延遲在毫秒到秒級，適合即時警報、即時推薦。IoT 異常監控需要後者。

變形 3

大數據平台的「三大特性（3V）」是什麼？

直覺

為什麼 IoT 資料叫「大數據」，普通資料庫有什麼不一樣？

答案

大數據的 3V：Volume（量大）、Velocity（速度快）、Variety（型態多元）。IoT 場景同時命中三個：5000 台設備產生龐大量（Volume），每秒回傳（Velocity），資料包含數值、文字、影像不同格式（Variety）。傳統關聯式資料庫面對 3V 同時發生就撐不住，需要專門的大數據架構。

變形 4

如果公司要同時做「即時警報」和「事後深度分析」，架構上怎麼設計？

直覺

即時和批次是否可以同時做？

答案

這就是「Lambda 架構」或「Kappa 架構」的概念。Lambda 架構同時維護串流層（即時計算）和批次層（離線精確計算），透過服務層合併結果。Kappa 架構則把所有資料都以串流處理，批次邏輯改成用串流框架的重放功能實現。IoT 場景常用 Lambda：Kafka 接收資料後，一路去串流處理做即時警報，另一路存到資料湖做事後訓練用。

變形 5

邊緣運算（Edge Computing）在 IoT 監控中有什麼作用？

直覺

所有資料都要傳到雲端才能分析嗎？

答案

不一定。邊緣運算（Edge Computing）是在靠近資料來源（設備旁邊的邊緣節點）就做初步處理，只把需要的資料或警報傳回雲端。好處是延遲更低（不用等雲端來回）、頻寬消耗更少。IoT 監控的典型架構是：邊緣節點做初步過濾和即時警報，雲端的大數據平台做長期分析和模型訓練。

07　延伸

想再往下看，這 5 個

Big Data（大數據）大量、高速、多元的資料特性，IoT 監控是大數據的典型應用場景。
即時推論（Real-time Inference）模型在資料進來的當下立即輸出結果，異常偵測需要這種低延遲能力。
異常偵測（Anomaly Detection）自動識別偏離正常模式的資料點，IoT 監控的核心演算法任務。
Edge AI（邊緣人工智慧）在設備端或邊緣節點就執行 AI 推論，減少對雲端的依賴和傳輸延遲。
資料管線（Data Pipeline）從資料收集到分析輸出的完整流程設計，IoT 架構的骨幹。