---
title: "資料湖（Data Lake）"
slug: data-lake
language: zh-TW
source: https://aiterms.tw/terms/data-lake
updated_at: 2026-04-29
tags: [資料處理, AI基礎]
ipas_term: false
---

# 資料湖（Data Lake）

> **你有沒有在你要把各種原始資料先收進同一個地方時，還在想這件事到底該怎麼看？**
>
> 把它想成一個先存原料、之後再慢慢整理的大水庫。
> 它可以先接住結構化、半結構化和非結構化資料，後面再決定怎麼用。
> 對 AI 團隊來說，它很適合保留原始樣貌，方便後續重跑和探索。
>
> 就像先用生活中的例子抓住核心用途，再回頭看名詞和公式，理解會穩很多。

### 容易混淆
> **data-warehouse**
> vs 資料倉儲 (Data Warehouse)：資料倉儲像經過濾和處理的瓶裝水，乾淨但只能存放特定格式的水；資料湖像未經處理的原始水庫，什麼水都能存，但要用時需要自己處理。
> **常見混淆：資料湖 vs data-warehouse**
> 資料湖先存原始資料，資料倉儲先整理後分析。

### 記住這句就好
> 先收原料，整理可以晚一點。

### 實際案例
> **日誌彙整**
> 網站、App、裝置 log 先全部存進去，之後再挑出要分析的部分。
> **多來源資料倉**
> 客服、交易、感測器資料先匯入，再依需求做清理或轉換。

### 算法與應用
> 1. 資料湖重點是保留原始資料，不先把格式固定死。
> 2. 沒有治理的資料湖很快會變成資料沼澤，所以目錄、權限和血緣都要做好。
> 3. 它適合探索和機器學習，但分析查詢通常還是要做整理。

### 情境判斷
> **Q1：如果你現在還不知道資料之後會怎麼用，先放哪裡比較彈性？**
> → 資料湖通常比較適合，因為它能先收原始資料。
> **Q2：資料湖是不是只要便宜就好？**
> → 不是，沒有治理的資料湖會讓資料難找、難懂，也難信任。

### 常見問題
> **Q：資料湖的資料治理包含哪些方面？**
> 資料湖的資料治理包含資料品質管理、資料沿襲追蹤、資料安全控制、資料目錄管理以及資料生命週期管理等多個方面。目的是確保資料的準確性、一致性、可追溯性和安全性，從而提高資料的價值。
> **Q：資料湖的安全性如何保障？**
> 資料湖的安全性可以通過多種方式來保障，包括存取控制、資料加密、身份驗證、授權以及安全監控。重要的是實施分層安全模型，以保護資料免受未經授權的存取和惡意攻擊。
> **Q：資料湖的成本效益體現在哪裡？**
> 資料湖的成本效益主要體現在使用低成本的儲存技術（例如雲端物件儲存）、減少資料轉換的需求以及提高資料利用率等方面。透過儲存原始資料，企業可以避免不必要的資料轉換和複製，從而降低儲存和處理成本。

### 相關術語
> - **資料倉儲**：看完這個後，再回來看 資料湖 會更容易把脈絡接起來。
> - **萃取、轉換、載入**：看完這個後，再回來看 資料湖 會更容易把脈絡接起來。
> - **機器學習**：看完這個後，再回來看 資料湖 會更容易把脈絡接起來。
> - **非監督式學習**：看完這個後，再回來看 資料湖 會更容易把脈絡接起來。
> - **資料漂移**：看完這個後，再回來看 資料湖 會更容易把脈絡接起來。

---

來源：https://aiterms.tw/terms/data-lake
快查頁：https://aiterms.tw/terms/data-lake
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-data-lake