萃取、轉換、載入(Extract, Transform, Load)是什麼?

萃取、轉換、載入(ETL)是資料工程的核心流程,指從多個來源提取數據,經過清洗與格式轉換,最終載入至目標資料倉儲的過程|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

萃取、轉換、載入(Extract, Transform, Load)是什麼? 資料處理

你有沒有遇過,銷售資料分散在 POS、會員系統和網站後台,月底報表卻要一起算?

你可以把它想成,先把資料從各處抓出來,再清洗成同一種格式,最後放進能查詢的地方。

ETL 就是資料工程裡最常見的搬運流程,沒有它,分析團隊通常連乾淨的數據都拿不到。

容易混淆

ETL vs ELT ETL 是先整理,再載入目標系統。 ELT 是先載入,再在目標系統裡做轉換。 最關鍵的區別:轉換是在進倉前,還是進倉後。

ETL vs 資料湖 資料湖偏向先存原始資料。 ETL 則偏向把資料整理好再送進資料倉儲。 最關鍵的區別:原始保存,還是先清洗。

ETL vs 特徵工程 特徵工程是為模型做欄位加工。 ETL 是為整體資料流做抽取與整併。 最關鍵的區別:面向模型,還是面向資料管線。

記住這句就好

先整理再放進資料倉儲。

實際案例

月報表資料整併 公司要把多個系統的營收資料合併成同一份報表。 Before:人工複製貼上。After:ETL 自動抽取、清洗、載入,報表才穩定。

會員資料清洗 不同平台的會員 ID、欄位格式和日期格式都不一致。 Before:資料對不起來。After:在轉換階段先統一格式,再送進倉儲。

算法與應用

ETL 的三步驟是抽取、轉換、載入,常搭配排程、資料驗證與稽核機制一起使用。

抽取時要注意來源格式,轉換時要做清洗與欄位標準化,載入時要處理重複與更新策略。

在大規模資料系統裡,ETL 的穩定性和可追蹤性通常比單次速度更重要。

情境判斷

Q1(直覺題): 你要把多個系統的資料做成同一份報表,最先要處理什麼?

→ 先把來源資料抽出並統一格式,否則後面根本無法可靠合併。

Q2(判斷題): 資料量很大時,ETL 一定要改成即時處理嗎?

→ 看情況。若報表允許延遲,批次 ETL 常更穩;若要即時監控,再考慮串流或混合架構。

常見問題

ETL 工具要怎麼選?

看資料來源、資料量、轉換複雜度、預算和團隊能力,再決定用哪種工具。

怎麼確保資料品質?

要做資料驗證、清洗、轉換與稽核,不能只靠最後一步補救。

怎麼提升效能?

可考慮批次載入、索引、並行處理與 SQL 優化。