資料整合的目的是什麼?
下列何者不屬於資料整合(Data Integration)的主要目的?
資料整合(Data Integration)是把來自不同地方的資料合併起來使用的過程。
問你:下列哪一項不屬於資料整合的主要目的?
一句話總結
資料整合在做「把資料合起來、讓它能一起用」,延長資料留存期限是保存政策的事,跟整合無關。
先感受問題:資料散落在不同系統,怎麼辦?
假設你是「好好生活」連鎖超市的資料分析師。公司有三套系統:
- POS 收銀系統:記錄每筆購買,用「商品代碼 001-1234」格式
- 會員 App:記錄顧客偏好,用「品名:巧克力牛奶」格式
- 倉儲系統:記錄庫存,用「SKU: CHOCO-MILK-250」格式
主管說:「幫我分析哪些會員偏好哪類商品、什麼時候庫存要補。」
問題來了:三個系統同一件事用不同名字、不同格式、還有重複和缺漏。你要怎麼讓三份資料「合起來可以一起算」?
這就是資料整合(Data Integration)要解決的問題。
沒有資料整合,分析師的日常
在沒有整合流程之前,「好好生活」的分析師每次要出報表都要手動撈:
- 格式不一:POS 說「001-1234」,App 說「巧克力牛奶」,根本不知道是不是同一個商品,只能靠人工比對
- 重複資料:會員同一天買了兩次但 App 只記一筆,訓練模型時數據就不準
- 資料缺漏:有些欄位三個系統填法不同,合併後整欄都是空白
- 每次重做:沒有統一流程,每位分析師自己一套方法,出來的數字不一樣
- 跨部門無法共用:行銷部跟物流部各自拉各自的資料,結論互相矛盾,開會吵架
每次出一份報表要花兩天手動清資料,大部分時間根本沒在分析,都在修格式。
資料整合怎麼解
「好好生活」導入資料整合流程後,做了這幾件事:
第一步:統一格式與欄位定義。決定全公司商品統一用「SKU 編碼」,POS 跟 App 的資料都轉換成這個格式,確保分析時不會張冠李戴。
第二步:識別並處理重複資料。會員同一天的重複購買記錄,用去重複(deduplication)規則清除,避免模型學到假訊號。
第三步:整併多來源、補齊缺漏。三個系統的資料合進同一張表,空白欄位依規則填補或標記,讓每一筆都能完整使用。
整合完成之後,分析師只要查一個地方,格式統一、無重複、資料完整,出報表從兩天縮到兩小時。
注意:整合流程不負責「要保存多久」。「資料留存幾年」是法規遵循(compliance)或資料治理(data governance)的決策,不在整合的工作範圍。
這就是選項 D 為什麼不屬於資料整合的主要目的:依資料保存政策延長原始資料留存期限,是保存管理的問題,不是整合的目的。
技術版:資料整合在 AI 專案裡的位置
資料整合(Data Integration)屬於 AI 專案流程中「資料準備」(Data Preparation)階段的核心工作,在業界通常被稱為 ETL 流程。
ETL 三個字代表什麼:
- E(Extract,擷取):從各個來源系統抓出原始資料
- T(Transform,轉換):統一格式、去除重複、補全缺漏、標準化欄位
- L(Load,載入):把整理好的資料載進統一的資料倉儲(Data Warehouse)或資料湖(Data Lake)
在 AI 專案中誰負責資料整合:資料工程師(Data Engineer)負責建立整合管線,資料科學家才能拿到乾淨的資料訓練模型。沒有整合這一步,模型訓練出來的結果根本不可信。
資料整合 vs. 資料治理:很多人把這兩件事混在一起,但考試會考區別。資料整合是「技術操作」,讓資料能合在一起分析;資料治理是「政策與管理」,決定資料要保存多久、誰有權限看、如何合規。選項 D 的「延長留存期限」就是治理層面的決策。
為什麼出題者要考這題:AI 應用規劃師在規劃專案時,必須知道資料準備的範疇。如果把「資料保存政策」誤以為是整合的目的,實務上會造成責任混淆,讓 IT 部門跟法務部門各做各的,最後資料管理一片混亂。
為什麼其他選項是錯的
A統一不同來源資料的格式與欄位定義,以確保分析一致性
把各系統格式不同的資料,轉成統一的規格,讓合併後的資料能一起分析。
這是資料整合的核心目的之一,是 ETL 裡「Transform(轉換)」步驟在做的事。題目問的是「不屬於」,所以 A 是正確目的,不能選。
沒注意題目問「不屬於」就直接找感覺正確的人。讀題時先畫出「不屬於」三個字,才不會反選。
B識別並處理重複資料,避免影響模型訓練結果
找出同一筆資料在不同系統出現多次的情況,去除重複,讓模型訓練時不受干擾。
去重複(deduplication)是資料整合中「資料品質」的重要工作。多來源合併最容易產生重複,整合流程必須處理這件事。B 是正確目的,不能選。
以為「重複資料」是資料清洗(data cleaning)的事、跟整合無關的人。實際上資料整合包含清洗,兩者是包含關係。
C整併多來源資料,以提升資料完整性與應用價值
把分散在各處的資料集中在一起,讓資料更完整、更有分析價值。
這幾乎是資料整合的定義本身。「整合」這個動作就是在整併多來源,目的就是提升完整性。C 是最明確的正確目的,不能選。
沒有讀清楚題目語意、反向選題的人。先確認題目問的是「不屬於」,再把最明顯「屬於」的排除。
同個考點下次怎麼變形
資料整合跟資料清洗(Data Cleaning)的差別是什麼?
聽起來都是在「整理資料」,很容易混在一起。
資料清洗專注在單一資料集的品質:補缺漏、修錯值、去噪音。資料整合是跨資料集的合併工作:把來自不同系統的資料合成一份。清洗通常是整合流程的一個步驟,先清再合。
ETL 流程的「Transform(轉換)」主要在做什麼?
ETL 三個字母各代表什麼、哪個步驟做什麼事,是常考細節。
Transform 包含:統一格式、欄位對應、去除重複、補全缺漏、型別轉換、資料正規化。簡單說就是「讓不同來源的資料變成同一種規格,可以合在一張表」。這正是資料整合的核心。
資料治理(Data Governance)跟資料整合的主要區別是什麼?
兩個都跟「管理資料」有關,但考試常考邊界。
資料整合是技術層的操作:讓資料能合起來分析。資料治理是政策層的管理:誰能看、保存多久、如何合規、資料品質標準由誰負責。本題選項 D「延長留存期限」就是治理範疇,不是整合目的。
資料倉儲(Data Warehouse)和資料湖(Data Lake)哪個更適合存放整合後的資料?
兩個都是「集中存放資料的地方」,但定位不同。
資料倉儲存的是結構化、已整理好的資料,適合商業報表和 SQL 查詢。資料湖存的是原始格式、各種類型的資料(結構化、半結構化、非結構化),適合機器學習和大數據分析。AI 專案通常先存資料湖,再整合後搬進倉儲或直接從湖裡訓練。
在 AI 模型訓練之前,為什麼資料整合是必要步驟?
模型不能直接拿散落在各系統的原始資料訓練嗎?
模型只能處理格式一致、語意清楚的資料。如果 POS 說「001-1234」、App 說「巧克力牛奶」,模型無法知道是同一個商品,會把它們當兩個不同特徵學習,訓練出來的模型根本不可信。整合是讓資料「說同一種語言」,是 AI 能上場前必須完成的地基工程。
想再往下看,這 5 個
- 萃取、轉換、載入(Extract, Transform, Load)資料整合最核心的工業流程,擷取原始資料、統一格式轉換、載入目標系統,是資料整合的具體實現手段。
- 資料倉儲(Data Warehouse)存放整合後結構化資料的集中系統;資料整合的主要目的正是把分散資料統整到倉儲,供 BI 分析與 AI 訓練使用。
- 資料管線(Data Pipeline)自動化搬移和轉換資料的工程流程;資料整合通常以資料管線實現,確保各來源資料能持續同步到目標系統。
- 資料品質監控(Data Quality Monitoring)持續追蹤資料準確性、完整性、一致性;整合完成後的品質監控確保分析結果可信,是整合的後置必要環節。
- 資料前處理(Data Preprocessing)整合前的必要步驟,涵蓋格式統一、重複值去除、缺漏值填補;整合多來源資料前必須先做前處理,才能保證整合後的資料品質。