資料血緣追蹤 是什麼?

Data Lineage — 資料血緣追蹤 的完整解釋

資料血緣追蹤記錄資料從來源到目的地的流動和轉換,提供資料的完整歷史和上下文,確保資料品質和可追溯性。

容易混淆

資料目錄 資料目錄告訴你資料在哪,血緣追蹤告訴你資料怎麼來、怎麼變、去哪裡。 常見混淆:資料血緣追蹤 vs 資料目錄 一個看位置,一個看來源和流向,兩者互補但用途不同。

記住這句就好

資料從哪來、怎麼變、去哪裡,都要看得到。

實際案例

報表追查 財務欄位突然不對,可以沿著血緣找到是哪個 ETL 步驟出問題。 法遵稽核 被問到某個指標怎麼算出來時,可以直接拿出流程證據。

算法與應用

  1. 血緣追蹤不只看資料來源,也看欄位在中間怎麼被轉換。
  2. 它和資料目錄互補,目錄告訴你資料在哪,血緣告訴你資料怎麼來。
  3. 導入時要從關鍵資料源開始,再慢慢擴到整個流程。

情境判斷

Q1:如果一個報表數字怪怪的,血緣追蹤最有幫助的地方是什麼? → 可以快速定位是哪個來源或轉換步驟出了問題。 Q2:血緣追蹤只是在畫圖嗎? → 不只是圖,它還是追責、治理和除錯的重要基礎。

相關術語

常見問題

為什麼資料血緣追蹤對於資料治理很重要?

資料血緣追蹤提供資料的完整歷史和上下文,幫助理解資料的來源、轉換和目的地。這對於確保資料品質、滿足合規性要求以及簡化資料治理流程至關重要,例如資料目錄建立和資料安全。

資料血緣追蹤與資料目錄有什麼不同?

資料血緣追蹤追蹤資料的流動和轉換,提供資料的歷史和上下文。資料目錄則提供資料的描述和位置,幫助使用者找到和理解資料。兩者是互補的,資料血緣追蹤提供資料的歷史,資料目錄提供資料的描述。

如何開始實施資料血緣追蹤?

先識別關鍵的資料來源、轉換和目的地,再選擇適合自己需求的資料血緣追蹤工具,最後建立一個血緣圖並定期更新和維護它,可以從小規模開始,逐步擴展到整個資料生態系統。