iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

生成式 AI 系統多樣化資料最佳處理策略是什麼？

原題 24

某企業建置生成式 AI 系統，利用大量客服紀錄與產品評論資料訓練語言模型，以自動生成客服回覆與知識摘要。由於資料來源多樣，且包含非結構化文字、影像與表格資訊，團隊希望在不降低模型效能的前提下，提升資料處理效率與一致性，下列哪一種資料處理策略最適合？

白話

一家企業要訓練語言模型，資料包含客服紀錄、產品評論、圖片和表格，種類繁多。他們希望在不犧牲模型效能的前提下，讓資料處理更有效率、更一致。

問你：面對多樣化的非結構化資料，哪種資料處理策略最能兼顧效率與一致性？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

面對多樣化、大量的非結構化資料，最適合的策略是：建立資料湖（Data Lake）結構，並以 Apache Spark 或 Ray 進行分散式預處理與特徵抽取，串接至模型訓練管線。這樣才能兼顧多種資料格式、大規模處理效率和一致性。

02　情境

先感受問題：資料太多、太雜，單機根本跑不完

智服科技正在建置一套 AI 客服系統，訓練資料來自三個來源：三年份的客服對話紀錄（文字，10 億字）、產品評論圖片（100 萬張）、客服案例表格（50 萬筆結構化紀錄）。

工程師明哲估算，如果用單台高效能伺服器跑這些資料的前處理，光是文字清理和格式轉換就要兩週，影像處理再加三週。等處理完，模型訓練還沒開始。

而且三種資料格式完全不同：文字要 tokenize、圖片要 resize 和 embed、表格要做特徵工程。怎麼讓這三類資料用同一套流程有效率地準備好，又能保持格式一致，直接串進訓練管線？

03　對照

沒有資料湖和分散式處理，會卡在哪裡

單節點處理瓶頸：單台伺服器的 CPU 和記憶體有限，面對 TB 等級的資料，處理時間以週計算，嚴重拖慢開發迭代速度，實務上根本行不通。
多格式資料管理混亂：文字、影像、表格分散在不同系統（資料庫、檔案伺服器、物件儲存），沒有統一的資料湖結構，每次要拉資料都要從不同地方撈，版本控制也是噩夢。
處理流程難以重現：沒有標準化的 Pipeline，每次資料預處理步驟都靠手動，格式轉換參數沒有統一記錄，重跑時結果可能不一致，嚴重影響模型訓練的可重現性。
特徵抽取無法並行：文字的詞向量抽取、圖片的特徵嵌入，每個樣本都要跑，沒有分散式框架就只能一個一個跑，效率極低。
新資料加入困難：每次有新一批評論或客服紀錄，就要重新手動整合，缺乏自動化的資料攝取（Data Ingestion）流程，維護成本高。

04　解法

資料湖 + 分散式處理框架：規模化且一致的訓練資料管線

明哲決定採用以下架構：

把所有原始資料（文字、圖片、表格）統一存入資料湖（Data Lake），保留原始格式，不強制轉換
用 Apache Spark 設定分散式 ETL 作業，把文字清理、圖片 resize、表格特徵工程分批拆給叢集的多個節點並行執行
用 Ray 處理 GPU 加速的特徵抽取任務（詞向量、影像嵌入）
把預處理後的特徵統一存回資料湖的「特徵層」，直接串接模型訓練管線（ML Pipeline）

結果：原本預估五週的前處理工作，用 100 節點的叢集在 8 小時內完成，而且每次新資料進來，同一套 Pipeline 自動執行，格式一致且可重現。

這就是選項 A 講的：建立資料湖（Data Lake）結構，並以 Apache Spark 或 Ray 進行分散式資料預處理與特徵抽取，再串接至模型訓練管線（Pipeline）。

技術版：資料湖與分散式處理框架在 AI 訓練管線中的位置

資料湖（Data Lake）是一種儲存架構，允許原始資料以原生格式存放（文字、圖片、影片、JSON、Parquet 等），不需要事先定義結構（Schema-on-Read 而非 Schema-on-Write），非常適合多樣化、大量的訓練資料管理。

主流分散式資料處理框架：

Apache Spark：最廣泛使用的大數據處理框架，支援 DataFrame API，可在叢集中並行執行 ETL（萃取、轉換、載入）、特徵工程、資料清洗，Python、Scala、Java 皆可使用。
Ray：Google DeepMind、Anyscale 推動的 Python 分散式計算框架，特別適合機器學習工作負載，支援分散式模型訓練（Ray Train）、超參數調整（Ray Tune）、特徵抽取等，與 PyTorch/TensorFlow 整合良好。

在實際的 LLM（大型語言模型）訓練管線中，資料預處理通常佔總工時的 60-80%，分散式處理是能否在合理時間內迭代的關鍵。Databricks（建立在 Spark 上）是業界最常見的訓練資料準備平台之一。

跟資料倉儲（Data Warehouse）的差異：資料倉儲存放已清理、結構化的資料，適合 BI 報表查詢；資料湖存放原始多格式資料，適合 AI/ML 訓練。

為什麼 iPAS 考這題：生成式 AI 的訓練資料規模動輒 TB 以上，理解分散式處理框架和資料湖架構是 AI 應用規劃師的必備知識，直接影響系統設計決策。

05　陷阱

為什麼其他選項是錯的

B採用單節點高效能伺服器搭配批次處理模式，集中執行資料清理與格式轉換

字面在說什麼

用一台很強的伺服器，批次跑完所有資料清理和格式轉換。

為什麼不對

題目說資料「來源多樣」且量大，單節點批次處理有明顯瓶頸：處理時間會很長，一旦伺服器故障就全停，擴展性差（資料量增加就只能換更貴的機器），對 TB 以上等級的 AI 訓練資料而言根本不夠用。

誰會選錯

對分散式運算不熟悉，以為「買更強的伺服器」就能解決效能問題的人。縱向擴展（升級單機）有天花板，橫向擴展（分散到多節點）才能應對真實 AI 訓練的資料規模。

C將所有文字資料轉換為向量，並以資料庫索引方式直接餵入語言模型訓練

字面在說什麼

文字轉成向量，存進資料庫加索引，直接給語言模型用。

為什麼不對

題目資料包含「文字、影像與表格」三種，但這個策略只處理了文字，完全忽略影像和表格資料。此外，「以資料庫索引方式直接餵入訓練」混淆了 RAG（檢索增強生成）的推論場景和訓練資料準備的概念，語言模型訓練需要的是 tokenized 序列資料，不是向量索引。

誰會選錯

接觸過向量資料庫或 RAG 系統的人，把「向量索引用於推論」的概念誤用到「訓練資料準備」場景。這兩個是不同的工作流程。

D使用生成式模型先行自動清理資料內容，再將結果輸入至下游訓練流程

字面在說什麼

先用一個 AI 模型自動清理資料，清好了再拿去訓練新模型。

為什麼不對

用生成式模型清理訓練資料，會引入「模型偏差」：清理後的資料帶有舊模型的語言風格和偏誤，新模型訓練完後會繼承甚至放大這些偏誤，形成「模型污染」的惡性循環。資料清理應該用確定性規則和人工審核，而非用另一個生成式模型自由生成。

誰會選錯

覺得「用 AI 做 AI 的事」很合理、很現代的人。這個直覺有其適用場景（如資料標注輔助），但用在訓練資料的前處理上，會讓資料品質變得不可控且難以重現。

06　變形

同個考點下次怎麼變形

變形 1

資料湖和資料倉儲有什麼本質差異？

直覺

兩個都是「存資料的地方」，差在哪？

答案

資料倉儲存放預先定義結構的清理過資料，適合 SQL 查詢和 BI 報表，寫入時必須符合 Schema（Schema-on-Write）。資料湖存放原始資料，任何格式都可以，讀取時才定義結構（Schema-on-Read），靈活性高，是 AI/ML 訓練資料的主流儲存選擇。

變形 2

Apache Spark 和傳統 Hadoop MapReduce 相比有什麼優勢？

直覺

兩個都是大數據框架，Spark 為什麼更常用？

答案

Spark 把中間結果存在記憶體（In-Memory Processing），而 MapReduce 每個步驟都寫回硬碟，I/O 速度成為瓶頸。Spark 在迭代運算（機器學習訓練就是迭代）上比 MapReduce 快 10-100 倍。Spark 也支援 SQL、串流、機器學習一套框架搞定，生態系更完整。

變形 3

ML Pipeline 的設計原則是什麼？

直覺

Pipeline 就是把步驟串在一起，有什麼特別的設計要考慮？

答案

好的 ML Pipeline 應具備：可重現性（相同輸入永遠得到相同輸出，靠版本控制資料和程式碼）、模組化（每個步驟獨立可測試和替換）、自動化（新資料到來自動觸發）、監控（追蹤資料品質和模型效能的漂移）。這四點缺一不可，否則維護成本會隨時間爆炸。

變形 4

非結構化資料在 AI 訓練前需要哪些前處理步驟？

直覺

文字、圖片、表格，各自要做什麼才能餵給模型？

答案

文字：清理（去噪、去重複）→ 分詞（Tokenization）→ 編碼（Token ID 轉換）。圖片：調整尺寸（Resize）→ 正規化像素值 → 可選特徵嵌入（Embedding）。表格：缺值填補（Imputation）→ 類別編碼（One-hot / Label Encoding）→ 數值縮放（Scaling）。這三類的前處理步驟完全不同，統一的 Pipeline 框架才能管理這些差異。

變形 5

什麼情況下應用 Ray 而非 Spark 做分散式處理？

直覺

Ray 和 Spark 都能做分散式，怎麼選？

答案

Spark 強在大規模 ETL 和 SQL 型資料處理，適合結構化或半結構化資料的批次轉換。Ray 強在 Python-native 的 AI/ML 工作負載，特別是需要 GPU 並行、動態任務圖、分散式強化學習的場景。混合工作負載時，常見的架構是用 Spark 做 ETL，用 Ray 做特徵工程和模型訓練。

07　延伸

想再往下看，這 5 個

資料湖（Data Lake）以原生格式儲存各種結構化和非結構化資料的集中式儲存架構，是大規模 AI 訓練資料管理的基礎。
資料管線（Data Pipeline）從原始資料到模型可用特徵的自動化處理流程，串接資料湖、分散式處理和訓練框架的骨幹。
ETL（萃取、轉換、載入）從多源頭抽取資料、轉換格式、載入目標系統的標準流程，Spark 是 ETL 最常用的執行框架之一。
分散式訓練（Distributed Training）把模型訓練任務分散到多個節點並行執行，資料預處理的分散化是分散式訓練管線的前提。
特徵工程（Feature Engineering）把原始資料轉換為機器學習模型可用的特徵，資料湖加分散式框架的架構正是為了讓特徵工程能規模化執行。