iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

交通影像加文字通報，大數據的 V 是哪個？

原題 46

某市政府建置城市治理資料平台，需整合交通車流偵測資料、路口監視器影像，以及民眾透過陳情系統提交的文字通報。由於各類資料格式、儲存方式與資料型態差異甚大，導致資料清理與整合成本顯著增加。就大數據特性而言，此專案最主要面臨下列哪一項挑戰？

白話

某市政府建置城市治理資料平台，需要整合三種資料：交通車流偵測資料、路口監視器影像，以及民眾透過陳情系統提交的文字通報。由於各類資料格式、儲存方式與資料型態差異甚大，導致資料清理與整合成本大幅增加。

問你：就大數據特性而言，這個專案最主要面臨的是哪一項挑戰？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

數值、影像、文字三種格式都不同，整合成本高，這是大數據「多樣性」的挑戰，Variety 正是在說「資料型態和格式的多種類難以統一處理」。

02　情境

先感受問題：三種資料，三種語言

想像你是「智慧台中市」資料平台的工程師。你要整合以下三套系統的資料：

車流感測器：每秒輸出「路口代碼、時間戳記、車輛數、平均速度」的 CSV 格式數值資料
路口監視器：每隔 2 秒輸出一張 1080p JPEG 影像，存在 NAS 上，用資料夾日期命名
民眾陳情系統：民眾用 App 提交自由文字，包含「中山路跟台灣大道交叉路口燈號故障，下午 3 點開始」這種非結構化描述

你的任務是：把這三種資料整合起來，讓系統能自動判斷「某個路口在某個時段是否有問題」。

問題很明顯：CSV 數值、JPEG 影像、自由文字，三種資料根本無法直接合在一張表裡。你要先解決「它們的格式、儲存方式、型態都不同」這個根本問題，才能開始分析。

03　對照

沒有統一整合機制的五個現實困境

儲存格式不通：CSV 進關聯式資料庫、影像進物件儲存（Object Storage）、文字進文件資料庫，三套系統完全獨立，無法跨系統查詢
型態轉換成本高：每種資料型態都需要專門的前處理工具，開發和維護三套 pipeline 的成本是開發一套的好幾倍
時間對齊困難：感測器的時間戳記精確到毫秒、影像依日期資料夾存，陳情文字的時間是民眾自述的，三者要對齊到同一個時間點需要大量清洗
語意鴻溝：「車流量 350 輛/小時」和一張道路影像和「燈號故障」這三件事，需要跨模態（multimodal）處理才能關聯起來
人才缺口：同一個團隊要同時懂時序資料分析、電腦視覺和自然語言處理，招募難度高

「智慧台中市」第一版系統只整合了車流數值資料，影像和文字都放棄了，最後的分析結果很有限，很多問題反應不出來。

04　解法

Variety 挑戰的辨認和處理方向

大數據的 Variety（多樣性）挑戰，解決方向不是找一個萬能的格式，而是為每種型態建立對應的處理機制，再統一轉換到可以比較的表示形式。

結構化資料（CSV 數值）：直接進資料倉儲，用 SQL 或時序資料庫管理。

非結構化影像資料：用電腦視覺模型萃取特徵（例如：路口車輛密度、是否有異常），轉換成結構化數值再存入統一平台。

半結構化文字資料：用自然語言處理抽取實體（路口名稱、時間、事件類型），轉換成結構化欄位。

三種型態各自前處理後，都轉換成「路口 × 時間 × 事件分類」的統一格式，才能整合分析。這個轉換工程就是應對 Variety 挑戰的核心工作。

這就是選項 C 講的：Variety，格式、儲存方式與資料型態差異甚大造成整合困難。

技術版：大數據 4V 在 AI 專案規劃的應用

大數據的 4V 框架是 IBM 在 2001 年由 Doug Laney 提出的，後來被廣泛採用作為評估資料挑戰的架構。了解每個 V 的確切含義，能幫助規劃師快速診斷專案面臨的主要技術挑戰。

Volume（量）：資料的總量。典型挑戰是單一伺服器存不下、查詢時間太長。解法是分散式儲存（Hadoop、S3）和分散式計算（Spark）。

Velocity（速度）：資料產生和需要處理的速度。典型挑戰是資料即時進來、需要毫秒級回應。解法是串流處理（Kafka、Flink）。

Variety（多樣）：資料的型態和格式多種。分為結構化（資料庫表格）、半結構化（JSON、XML）、非結構化（影像、音訊、文字）。挑戰是整合成本高、需要不同工具處理。解法是資料湖（Data Lake）架構和多模態處理管線。

Veracity（真實性）：資料的品質和可信度。典型挑戰是資料含錯誤、缺漏、或來源可信度不同。解法是資料品質管理流程和來源驗證機制。

為什麼出題者要考這題：AI 應用規劃師在評估一個資料專案時，首先要能識別主要挑戰是哪個 V。這題的情境特徵是「格式差異造成整合成本高」，精確對應 Variety，不是其他三個 V。

05　陷阱

為什麼其他選項是錯的

AVolume

字面在說什麼

資料量的挑戰：資料總量太大，儲存和處理都有困難。

為什麼不對

題目沒有提到資料量龐大或儲存空間不足的問題，強調的是「各類資料格式、儲存方式與資料型態差異甚大」，這是多樣性問題，不是量的問題。監視器影像量確實大，但題目把三種資料並列描述，核心痛點是整合困難，不是量太多。

誰會選錯

看到「監視器影像」就直觀認為「影像很大」所以選 Volume 的人。要回到題目描述的主要困難是什麼：是「量大存不下」，還是「格式不同整合困難」？

BVelocity

字面在說什麼

資料產生速度的挑戰：資料快速生成，需要即時或近即時處理。

為什麼不對

題目沒有提到「資料產生太快、處理速度跟不上」的問題。車流感測器確實持續輸出，但題目描述的挑戰是整合成本高，不是速度跟不上。如果題目說「每秒產生 10GB 資料、系統處理延遲 5 秒」，那才是 Velocity 的挑戰。

誰會選錯

看到「即時偵測」「即時通報」就想到速度的人。關鍵是找出題目明確描述的痛點，這題痛點是「差異甚大導致整合成本增加」，不是速度。

DVeracity

字面在說什麼

資料真實性和品質的挑戰：資料含有錯誤、缺漏、或可信度不明的問題。

為什麼不對

題目沒有提到資料品質差、資料有錯誤、或可信度有疑問的問題。陳情文字的確可能有誤導，但題目強調的整合困難是因為格式不同，不是因為資料不準確。如果題目說「民眾陳情資料有大量錯誤地址和虛假通報」，那才是 Veracity 的挑戰。

大數據（Big Data）以 4V 框架描述的大規模資料特性，Variety 是本題的核心考點，多格式整合成本高是典型 Variety 挑戰
結構化資料（Structured Data）具有固定欄位和格式的資料（如感測器數值、生產參數），Variety 挑戰的一個組成部分，整合時需與非結構化資料統一
非結構化資料（Unstructured Data）沒有固定格式的資料（如路口監視器影像、文字通報），Variety 挑戰的核心來源，處理成本遠高於結構化資料
資料湖（Data Lake）以原始格式儲存各種型態資料的集中式架構，是應對 Variety 挑戰的主流儲存方案
萃取、轉換、載入（Extract, Transform, Load）從多種格式來源抽取、統一轉換、載入目標系統的流程，Variety 整合挑戰的技術解法核心