iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

交通影像加文字通報,大數據的 V 是哪個?

原題 46

某市政府建置城市治理資料平台,需整合交通車流偵測資料、路口監視器影像,以及民眾透過陳情系統提交的文字通報。由於各類資料格式、儲存方式與資料型態差異甚大,導致資料清理與整合成本顯著增加。就大數據特性而言,此專案最主要面臨下列哪一項挑戰?

白話

某市政府建置城市治理資料平台,需要整合三種資料:交通車流偵測資料、路口監視器影像,以及民眾透過陳情系統提交的文字通報。由於各類資料格式、儲存方式與資料型態差異甚大,導致資料清理與整合成本大幅增加。

問你:就大數據特性而言,這個專案最主要面臨的是哪一項挑戰?

點選你的答案。

01 總結

一句話總結

數值、影像、文字三種格式都不同,整合成本高,這是大數據「多樣性」的挑戰,Variety 正是在說「資料型態和格式的多種類難以統一處理」

02 情境

先感受問題:三種資料,三種語言

想像你是「智慧台中市」資料平台的工程師。你要整合以下三套系統的資料:

  • 車流感測器:每秒輸出「路口代碼、時間戳記、車輛數、平均速度」的 CSV 格式數值資料
  • 路口監視器:每隔 2 秒輸出一張 1080p JPEG 影像,存在 NAS 上,用資料夾日期命名
  • 民眾陳情系統:民眾用 App 提交自由文字,包含「中山路跟台灣大道交叉路口燈號故障,下午 3 點開始」這種非結構化描述

你的任務是:把這三種資料整合起來,讓系統能自動判斷「某個路口在某個時段是否有問題」。

問題很明顯:CSV 數值、JPEG 影像、自由文字,三種資料根本無法直接合在一張表裡。你要先解決「它們的格式、儲存方式、型態都不同」這個根本問題,才能開始分析。

03 對照

沒有統一整合機制的五個現實困境

  1. 儲存格式不通:CSV 進關聯式資料庫、影像進物件儲存(Object Storage)、文字進文件資料庫,三套系統完全獨立,無法跨系統查詢
  2. 型態轉換成本高:每種資料型態都需要專門的前處理工具,開發和維護三套 pipeline 的成本是開發一套的好幾倍
  3. 時間對齊困難:感測器的時間戳記精確到毫秒、影像依日期資料夾存,陳情文字的時間是民眾自述的,三者要對齊到同一個時間點需要大量清洗
  4. 語意鴻溝:「車流量 350 輛/小時」和一張道路影像和「燈號故障」這三件事,需要跨模態(multimodal)處理才能關聯起來
  5. 人才缺口:同一個團隊要同時懂時序資料分析、電腦視覺和自然語言處理,招募難度高

「智慧台中市」第一版系統只整合了車流數值資料,影像和文字都放棄了,最後的分析結果很有限,很多問題反應不出來。

04 解法

Variety 挑戰的辨認和處理方向

大數據的 Variety(多樣性)挑戰,解決方向不是找一個萬能的格式,而是為每種型態建立對應的處理機制,再統一轉換到可以比較的表示形式。

結構化資料(CSV 數值):直接進資料倉儲,用 SQL 或時序資料庫管理。

非結構化影像資料:用電腦視覺模型萃取特徵(例如:路口車輛密度、是否有異常),轉換成結構化數值再存入統一平台。

半結構化文字資料:用自然語言處理抽取實體(路口名稱、時間、事件類型),轉換成結構化欄位。

三種型態各自前處理後,都轉換成「路口 × 時間 × 事件分類」的統一格式,才能整合分析。這個轉換工程就是應對 Variety 挑戰的核心工作。

這就是選項 C 講的:Variety,格式、儲存方式與資料型態差異甚大造成整合困難

技術版:大數據 4V 在 AI 專案規劃的應用

大數據的 4V 框架是 IBM 在 2001 年由 Doug Laney 提出的,後來被廣泛採用作為評估資料挑戰的架構。了解每個 V 的確切含義,能幫助規劃師快速診斷專案面臨的主要技術挑戰。

Volume(量):資料的總量。典型挑戰是單一伺服器存不下、查詢時間太長。解法是分散式儲存(Hadoop、S3)和分散式計算(Spark)。

Velocity(速度):資料產生和需要處理的速度。典型挑戰是資料即時進來、需要毫秒級回應。解法是串流處理(Kafka、Flink)。

Variety(多樣):資料的型態和格式多種。分為結構化(資料庫表格)、半結構化(JSON、XML)、非結構化(影像、音訊、文字)。挑戰是整合成本高、需要不同工具處理。解法是資料湖(Data Lake)架構和多模態處理管線。

Veracity(真實性):資料的品質和可信度。典型挑戰是資料含錯誤、缺漏、或來源可信度不同。解法是資料品質管理流程和來源驗證機制。

為什麼出題者要考這題:AI 應用規劃師在評估一個資料專案時,首先要能識別主要挑戰是哪個 V。這題的情境特徵是「格式差異造成整合成本高」,精確對應 Variety,不是其他三個 V。

05 陷阱

為什麼其他選項是錯的

AVolume

字面在說什麼

資料量的挑戰:資料總量太大,儲存和處理都有困難。

為什麼不對

題目沒有提到資料量龐大或儲存空間不足的問題,強調的是「各類資料格式、儲存方式與資料型態差異甚大」,這是多樣性問題,不是量的問題。監視器影像量確實大,但題目把三種資料並列描述,核心痛點是整合困難,不是量太多。

誰會選錯

看到「監視器影像」就直觀認為「影像很大」所以選 Volume 的人。要回到題目描述的主要困難是什麼:是「量大存不下」,還是「格式不同整合困難」?

BVelocity

字面在說什麼

資料產生速度的挑戰:資料快速生成,需要即時或近即時處理。

為什麼不對

題目沒有提到「資料產生太快、處理速度跟不上」的問題。車流感測器確實持續輸出,但題目描述的挑戰是整合成本高,不是速度跟不上。如果題目說「每秒產生 10GB 資料、系統處理延遲 5 秒」,那才是 Velocity 的挑戰。

誰會選錯

看到「即時偵測」「即時通報」就想到速度的人。關鍵是找出題目明確描述的痛點,這題痛點是「差異甚大導致整合成本增加」,不是速度。

DVeracity

字面在說什麼

資料真實性和品質的挑戰:資料含有錯誤、缺漏、或可信度不明的問題。

為什麼不對

題目沒有提到資料品質差、資料有錯誤、或可信度有疑問的問題。陳情文字的確可能有誤導,但題目強調的整合困難是因為格式不同,不是因為資料不準確。如果題目說「民眾陳情資料有大量錯誤地址和虛假通報」,那才是 Veracity 的挑戰。

誰會選錯

對 Veracity 和 Variety 兩個詞容易混淆的人。記憶方法:Variety 是「多種」(型態多),Veracity 是「真實」(品質對)。題目說的是型態多種,不是品質問題。

06 變形

同個考點下次怎麼變形

變形 1

股票交易系統每秒產生數百萬筆訂單,需要毫秒內完成風控判斷。這主要面臨的是哪個 V 的挑戰?

直覺

訂單量也很多,也有格式,是 Volume 還是 Velocity?

答案

主要是 Velocity(速度)。關鍵描述是「每秒數百萬筆」和「毫秒內完成判斷」,強調的是資料產生速度極快、處理時間要求極短。雖然量也很大,但題目強調的痛點是速度跟得上或跟不上,這是 Velocity 的核心挑戰。

變形 2

某電商平台累積了 5 億筆購物記錄,單次查詢需掃描整個資料庫,耗時超過 30 分鐘。這主要面臨哪個 V 的挑戰?

直覺

5 億筆、30 分鐘,感覺是量的問題。

答案

主要是 Volume(量)。關鍵描述是「5 億筆」和「需要掃描整個資料庫」,強調資料總量龐大導致查詢效能差。解法是分散式儲存和索引優化,不是換格式(Variety)或加快採集速度(Velocity)。

變形 3

某醫療系統整合了多家醫院的病歷,發現同一位病患在不同醫院的資料有互相矛盾的紀錄。這主要面臨哪個 V 的挑戰?

直覺

不同醫院的格式也不同,是 Variety?

答案

主要是 Veracity(真實性)。關鍵描述是「互相矛盾的紀錄」,強調資料的可信度和一致性問題,不是格式整合問題。如果題目說「不同醫院用了不同的編碼格式(ICD-9 vs ICD-10)」,那才是 Variety 的問題。

變形 4

大數據 4V 中,哪個 V 是 AI 模型訓練品質最直接相關的?

直覺

感覺量越大模型越好?

答案

Veracity(真實性)最直接影響模型品質。「垃圾進,垃圾出(Garbage In, Garbage Out)」是 AI 訓練的鐵律,資料有錯誤和偏見,模型學到的就是錯誤和偏見。Volume 增加通常幫助泛化,但如果資料品質差,量越大反而讓模型學到更多錯誤模式。

變形 5

結構化資料、半結構化資料、非結構化資料,各有什麼例子?

直覺

這三種聽說 Variety 的核心,但不確定各指什麼。

答案

結構化資料:關聯式資料庫的表格、Excel 試算表、CSV 檔,有固定的欄位定義和資料型別。半結構化資料:JSON、XML、HTML,有一定的標記結構但不符合關聯式表格模式。非結構化資料:圖片、影片、音訊、自由文字,沒有預定義的格式,佔現今 AI 處理的資料量 80% 以上。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 46 題

查看官方原文 PDF