資料湖 是什麼?
Data Lake — 資料湖 的完整解釋
資料湖是一種大型集中式儲存庫,能以原始格式存放結構化、半結構化和非結構化的各式資料,提供高度彈性與可擴展性。
容易混淆
data-warehouse vs 資料倉儲 (Data Warehouse):資料倉儲像經過濾和處理的瓶裝水,乾淨但只能存放特定格式的水;資料湖像未經處理的原始水庫,什麼水都能存,但要用時需要自己處理。 常見混淆:資料湖 vs data-warehouse 資料湖先存原始資料,資料倉儲先整理後分析。
記住這句就好
先收原料,整理可以晚一點。
實際案例
日誌彙整 網站、App、裝置 log 先全部存進去,之後再挑出要分析的部分。 多來源資料倉 客服、交易、感測器資料先匯入,再依需求做清理或轉換。
算法與應用
- 資料湖重點是保留原始資料,不先把格式固定死。
- 沒有治理的資料湖很快會變成資料沼澤,所以目錄、權限和血緣都要做好。
- 它適合探索和機器學習,但分析查詢通常還是要做整理。
情境判斷
Q1:如果你現在還不知道資料之後會怎麼用,先放哪裡比較彈性? → 資料湖通常比較適合,因為它能先收原始資料。 Q2:資料湖是不是只要便宜就好? → 不是,沒有治理的資料湖會讓資料難找、難懂,也難信任。
相關術語
常見問題
資料湖的資料治理包含哪些方面?
資料湖的資料治理包含資料品質管理、資料沿襲追蹤、資料安全控制、資料目錄管理以及資料生命週期管理等多個方面。目的是確保資料的準確性、一致性、可追溯性和安全性,從而提高資料的價值。
資料湖的安全性如何保障?
資料湖的安全性可以通過多種方式來保障,包括存取控制、資料加密、身份驗證、授權以及安全監控。重要的是實施分層安全模型,以保護資料免受未經授權的存取和惡意攻擊。
資料湖的成本效益體現在哪裡?
資料湖的成本效益主要體現在使用低成本的儲存技術(例如雲端物件儲存)、減少資料轉換的需求以及提高資料利用率等方面。透過儲存原始資料,企業可以避免不必要的資料轉換和複製,從而降低儲存和處理成本。