iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

生成式 AI 系統多樣化資料最佳處理策略是什麼?

原題 24

某企業建置生成式 AI 系統,利用大量客服紀錄與產品評論資料訓練語言模型,以自動生成客服回覆與知識摘要。由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?

白話

一家企業要訓練語言模型,資料包含客服紀錄、產品評論、圖片和表格,種類繁多。他們希望在不犧牲模型效能的前提下,讓資料處理更有效率、更一致。

問你:面對多樣化的非結構化資料,哪種資料處理策略最能兼顧效率與一致性?

點選你的答案。

01 總結

一句話總結

面對多樣化、大量的非結構化資料,最適合的策略是:建立資料湖(Data Lake)結構,並以 Apache Spark 或 Ray 進行分散式預處理與特徵抽取,串接至模型訓練管線。這樣才能兼顧多種資料格式、大規模處理效率和一致性。

02 情境

先感受問題:資料太多、太雜,單機根本跑不完

智服科技正在建置一套 AI 客服系統,訓練資料來自三個來源:三年份的客服對話紀錄(文字,10 億字)、產品評論圖片(100 萬張)、客服案例表格(50 萬筆結構化紀錄)。

工程師明哲估算,如果用單台高效能伺服器跑這些資料的前處理,光是文字清理和格式轉換就要兩週,影像處理再加三週。等處理完,模型訓練還沒開始。

而且三種資料格式完全不同:文字要 tokenize、圖片要 resize 和 embed、表格要做特徵工程。怎麼讓這三類資料用同一套流程有效率地準備好,又能保持格式一致,直接串進訓練管線?

03 對照

沒有資料湖和分散式處理,會卡在哪裡

  1. 單節點處理瓶頸:單台伺服器的 CPU 和記憶體有限,面對 TB 等級的資料,處理時間以週計算,嚴重拖慢開發迭代速度,實務上根本行不通。
  2. 多格式資料管理混亂:文字、影像、表格分散在不同系統(資料庫、檔案伺服器、物件儲存),沒有統一的資料湖結構,每次要拉資料都要從不同地方撈,版本控制也是噩夢。
  3. 處理流程難以重現:沒有標準化的 Pipeline,每次資料預處理步驟都靠手動,格式轉換參數沒有統一記錄,重跑時結果可能不一致,嚴重影響模型訓練的可重現性。
  4. 特徵抽取無法並行:文字的詞向量抽取、圖片的特徵嵌入,每個樣本都要跑,沒有分散式框架就只能一個一個跑,效率極低。
  5. 新資料加入困難:每次有新一批評論或客服紀錄,就要重新手動整合,缺乏自動化的資料攝取(Data Ingestion)流程,維護成本高。
04 解法

資料湖 + 分散式處理框架:規模化且一致的訓練資料管線

明哲決定採用以下架構:

  • 把所有原始資料(文字、圖片、表格)統一存入資料湖(Data Lake),保留原始格式,不強制轉換
  • 用 Apache Spark 設定分散式 ETL 作業,把文字清理、圖片 resize、表格特徵工程分批拆給叢集的多個節點並行執行
  • 用 Ray 處理 GPU 加速的特徵抽取任務(詞向量、影像嵌入)
  • 把預處理後的特徵統一存回資料湖的「特徵層」,直接串接模型訓練管線(ML Pipeline)

結果:原本預估五週的前處理工作,用 100 節點的叢集在 8 小時內完成,而且每次新資料進來,同一套 Pipeline 自動執行,格式一致且可重現。

這就是選項 A 講的:建立資料湖(Data Lake)結構,並以 Apache Spark 或 Ray 進行分散式資料預處理與特徵抽取,再串接至模型訓練管線(Pipeline)

技術版:資料湖與分散式處理框架在 AI 訓練管線中的位置

資料湖(Data Lake)是一種儲存架構,允許原始資料以原生格式存放(文字、圖片、影片、JSON、Parquet 等),不需要事先定義結構(Schema-on-Read 而非 Schema-on-Write),非常適合多樣化、大量的訓練資料管理。

主流分散式資料處理框架:

  • Apache Spark:最廣泛使用的大數據處理框架,支援 DataFrame API,可在叢集中並行執行 ETL(萃取、轉換、載入)、特徵工程、資料清洗,Python、Scala、Java 皆可使用。
  • Ray:Google DeepMind、Anyscale 推動的 Python 分散式計算框架,特別適合機器學習工作負載,支援分散式模型訓練(Ray Train)、超參數調整(Ray Tune)、特徵抽取等,與 PyTorch/TensorFlow 整合良好。

在實際的 LLM(大型語言模型)訓練管線中,資料預處理通常佔總工時的 60-80%,分散式處理是能否在合理時間內迭代的關鍵。Databricks(建立在 Spark 上)是業界最常見的訓練資料準備平台之一。

跟資料倉儲(Data Warehouse)的差異:資料倉儲存放已清理、結構化的資料,適合 BI 報表查詢;資料湖存放原始多格式資料,適合 AI/ML 訓練。

為什麼 iPAS 考這題:生成式 AI 的訓練資料規模動輒 TB 以上,理解分散式處理框架和資料湖架構是 AI 應用規劃師的必備知識,直接影響系統設計決策。

05 陷阱

為什麼其他選項是錯的

B採用單節點高效能伺服器搭配批次處理模式,集中執行資料清理與格式轉換

字面在說什麼

用一台很強的伺服器,批次跑完所有資料清理和格式轉換。

為什麼不對

題目說資料「來源多樣」且量大,單節點批次處理有明顯瓶頸:處理時間會很長,一旦伺服器故障就全停,擴展性差(資料量增加就只能換更貴的機器),對 TB 以上等級的 AI 訓練資料而言根本不夠用。

誰會選錯

對分散式運算不熟悉,以為「買更強的伺服器」就能解決效能問題的人。縱向擴展(升級單機)有天花板,橫向擴展(分散到多節點)才能應對真實 AI 訓練的資料規模。

C將所有文字資料轉換為向量,並以資料庫索引方式直接餵入語言模型訓練

字面在說什麼

文字轉成向量,存進資料庫加索引,直接給語言模型用。

為什麼不對

題目資料包含「文字、影像與表格」三種,但這個策略只處理了文字,完全忽略影像和表格資料。此外,「以資料庫索引方式直接餵入訓練」混淆了 RAG(檢索增強生成)的推論場景和訓練資料準備的概念,語言模型訓練需要的是 tokenized 序列資料,不是向量索引。

誰會選錯

接觸過向量資料庫或 RAG 系統的人,把「向量索引用於推論」的概念誤用到「訓練資料準備」場景。這兩個是不同的工作流程。

D使用生成式模型先行自動清理資料內容,再將結果輸入至下游訓練流程

字面在說什麼

先用一個 AI 模型自動清理資料,清好了再拿去訓練新模型。

為什麼不對

用生成式模型清理訓練資料,會引入「模型偏差」:清理後的資料帶有舊模型的語言風格和偏誤,新模型訓練完後會繼承甚至放大這些偏誤,形成「模型污染」的惡性循環。資料清理應該用確定性規則和人工審核,而非用另一個生成式模型自由生成。

誰會選錯

覺得「用 AI 做 AI 的事」很合理、很現代的人。這個直覺有其適用場景(如資料標注輔助),但用在訓練資料的前處理上,會讓資料品質變得不可控且難以重現。

06 變形

同個考點下次怎麼變形

變形 1

資料湖和資料倉儲有什麼本質差異?

直覺

兩個都是「存資料的地方」,差在哪?

答案

資料倉儲存放預先定義結構的清理過資料,適合 SQL 查詢和 BI 報表,寫入時必須符合 Schema(Schema-on-Write)。資料湖存放原始資料,任何格式都可以,讀取時才定義結構(Schema-on-Read),靈活性高,是 AI/ML 訓練資料的主流儲存選擇。

變形 2

Apache Spark 和傳統 Hadoop MapReduce 相比有什麼優勢?

直覺

兩個都是大數據框架,Spark 為什麼更常用?

答案

Spark 把中間結果存在記憶體(In-Memory Processing),而 MapReduce 每個步驟都寫回硬碟,I/O 速度成為瓶頸。Spark 在迭代運算(機器學習訓練就是迭代)上比 MapReduce 快 10-100 倍。Spark 也支援 SQL、串流、機器學習一套框架搞定,生態系更完整。

變形 3

ML Pipeline 的設計原則是什麼?

直覺

Pipeline 就是把步驟串在一起,有什麼特別的設計要考慮?

答案

好的 ML Pipeline 應具備:可重現性(相同輸入永遠得到相同輸出,靠版本控制資料和程式碼)、模組化(每個步驟獨立可測試和替換)、自動化(新資料到來自動觸發)、監控(追蹤資料品質和模型效能的漂移)。這四點缺一不可,否則維護成本會隨時間爆炸。

變形 4

非結構化資料在 AI 訓練前需要哪些前處理步驟?

直覺

文字、圖片、表格,各自要做什麼才能餵給模型?

答案

文字:清理(去噪、去重複)→ 分詞(Tokenization)→ 編碼(Token ID 轉換)。圖片:調整尺寸(Resize)→ 正規化像素值 → 可選特徵嵌入(Embedding)。表格:缺值填補(Imputation)→ 類別編碼(One-hot / Label Encoding)→ 數值縮放(Scaling)。這三類的前處理步驟完全不同,統一的 Pipeline 框架才能管理這些差異。

變形 5

什麼情況下應用 Ray 而非 Spark 做分散式處理?

直覺

Ray 和 Spark 都能做分散式,怎麼選?

答案

Spark 強在大規模 ETL 和 SQL 型資料處理,適合結構化或半結構化資料的批次轉換。Ray 強在 Python-native 的 AI/ML 工作負載,特別是需要 GPU 並行、動態任務圖、分散式強化學習的場景。混合工作負載時,常見的架構是用 Spark 做 ETL,用 Ray 做特徵工程和模型訓練。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 24 題

查看官方原文 PDF