你有沒有遇過,銷售資料分散在 POS、會員系統和網站後台,月底報表卻要一起算?
你可以把它想成,先把資料從各處抓出來,再清洗成同一種格式,最後放進能查詢的地方。
ETL 就是資料工程裡最常見的搬運流程,沒有它,分析團隊通常連乾淨的數據都拿不到。
容易混淆
ETL vs ELT ETL 是先整理,再載入目標系統。 ELT 是先載入,再在目標系統裡做轉換。 最關鍵的區別:轉換是在進倉前,還是進倉後。
ETL vs 資料湖 資料湖偏向先存原始資料。 ETL 則偏向把資料整理好再送進資料倉儲。 最關鍵的區別:原始保存,還是先清洗。
ETL vs 特徵工程 特徵工程是為模型做欄位加工。 ETL 是為整體資料流做抽取與整併。 最關鍵的區別:面向模型,還是面向資料管線。
記住這句就好
先整理再放進資料倉儲。
實際案例
月報表資料整併 公司要把多個系統的營收資料合併成同一份報表。 Before:人工複製貼上。After:ETL 自動抽取、清洗、載入,報表才穩定。
會員資料清洗 不同平台的會員 ID、欄位格式和日期格式都不一致。 Before:資料對不起來。After:在轉換階段先統一格式,再送進倉儲。
算法與應用
ETL 的三步驟是抽取、轉換、載入,常搭配排程、資料驗證與稽核機制一起使用。
抽取時要注意來源格式,轉換時要做清洗與欄位標準化,載入時要處理重複與更新策略。
在大規模資料系統裡,ETL 的穩定性和可追蹤性通常比單次速度更重要。
情境判斷
Q1(直覺題): 你要把多個系統的資料做成同一份報表,最先要處理什麼?
→ 先把來源資料抽出並統一格式,否則後面根本無法可靠合併。
Q2(判斷題): 資料量很大時,ETL 一定要改成即時處理嗎?
→ 看情況。若報表允許延遲,批次 ETL 常更穩;若要即時監控,再考慮串流或混合架構。
常見問題
ETL 工具要怎麼選?
看資料來源、資料量、轉換複雜度、預算和團隊能力,再決定用哪種工具。
怎麼確保資料品質?
要做資料驗證、清洗、轉換與稽核,不能只靠最後一步補救。
怎麼提升效能?
可考慮批次載入、索引、並行處理與 SQL 優化。