你有沒有在你要做查詢和商業分析時,還在想這件事到底該怎麼看?
把它想成為分析而整理好的資料庫。 它專門支援查詢、報表和歷史分析,不是拿來做即時交易。 資料來源整合得好,管理層看數字才會一致。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
data-lake vs 資料庫 (Database):資料庫像書店,主要處理日常交易和即時更新;資料倉儲像圖書館,專為長期儲存、查詢和分析歷史資料設計,不做即時交易。 常見混淆:資料倉儲 vs data-lake 資料倉儲偏整理後查詢,資料湖偏原始資料儲存。
記住這句就好
分析用的倉庫,重點是查得快、看得準。
實際案例
營收報表 把不同系統的銷售數字彙整後,讓財務和營運看同一份報表。 跨部門儀表板 讓行銷、客服和產品部門都能看到一致的分析結果。
深入了解
- 資料倉儲通常會先經過清理和建模,再提供分析查詢。
- 星型模式和雪花模式是常見的建模方式。
- 它重視查詢效率和一致性,和保留原始資料為主的資料湖不同。
情境判斷
Q1: 如果你每天都要查很多歷史報表,適合放哪裡?
Q2: 資料倉儲和資料湖有可能一起用嗎?
iPAS 考題
Q1: 資料倉儲的核心用途是什麼?
常見問題
資料倉儲的 ETL 流程中,什麼是資料清洗?
資料清洗是 ETL 流程中轉換階段的一個重要環節,旨在移除或更正資料中的錯誤、不一致性、缺失值和重複項。例如,將不同格式的日期統一轉換為 YYYY-MM-DD 格式,或處理缺失的客戶電話號碼。資料清洗的目標是確保資料的品質,提高分析的準確性。
資料倉儲的資料建模有哪些常見的模式?
資料倉儲常見的資料建模模式包括星型模式和雪花模式。星型模式以一個中心的事實表和多個維度表組成,結構簡單,查詢效率高。雪花模式則將維度表進一步分解成多個子維度表,結構更複雜,但可以減少資料冗餘。選擇哪種模式取決於具體的業務需求和資料量。
資料倉儲如何應對不斷增長的資料量?
資料倉儲可以透過多種方式應對不斷增長的資料量,包括水平擴展(增加硬體資源)、垂直擴展(升級硬體配置)、資料分割(將資料分散儲存在多個節點上)、以及資料壓縮(減少資料儲存空間)。選擇哪種方式取決於具體的硬體環境、軟體架構、以及預算限制。