iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

資料整合的目的是什麼？

原題 01

下列何者不屬於資料整合（Data Integration）的主要目的？

白話

資料整合（Data Integration）是把來自不同地方的資料合併起來使用的過程。

問你：下列哪一項不屬於資料整合的主要目的？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

資料整合在做「把資料合起來、讓它能一起用」，延長資料留存期限是保存政策的事，跟整合無關。

02　情境

先感受問題：資料散落在不同系統，怎麼辦？

假設你是「好好生活」連鎖超市的資料分析師。公司有三套系統：

POS 收銀系統：記錄每筆購買，用「商品代碼 001-1234」格式
會員 App：記錄顧客偏好，用「品名：巧克力牛奶」格式
倉儲系統：記錄庫存，用「SKU: CHOCO-MILK-250」格式

主管說：「幫我分析哪些會員偏好哪類商品、什麼時候庫存要補。」

問題來了：三個系統同一件事用不同名字、不同格式、還有重複和缺漏。你要怎麼讓三份資料「合起來可以一起算」？

這就是資料整合（Data Integration）要解決的問題。

03　對照

沒有資料整合，分析師的日常

在沒有整合流程之前，「好好生活」的分析師每次要出報表都要手動撈：

格式不一：POS 說「001-1234」，App 說「巧克力牛奶」，根本不知道是不是同一個商品，只能靠人工比對
重複資料：會員同一天買了兩次但 App 只記一筆，訓練模型時數據就不準
資料缺漏：有些欄位三個系統填法不同，合併後整欄都是空白
每次重做：沒有統一流程，每位分析師自己一套方法，出來的數字不一樣
跨部門無法共用：行銷部跟物流部各自拉各自的資料，結論互相矛盾，開會吵架

每次出一份報表要花兩天手動清資料，大部分時間根本沒在分析，都在修格式。

04　解法

資料整合怎麼解

「好好生活」導入資料整合流程後，做了這幾件事：

第一步：統一格式與欄位定義。決定全公司商品統一用「SKU 編碼」，POS 跟 App 的資料都轉換成這個格式，確保分析時不會張冠李戴。

第二步：識別並處理重複資料。會員同一天的重複購買記錄，用去重複（deduplication）規則清除，避免模型學到假訊號。

第三步：整併多來源、補齊缺漏。三個系統的資料合進同一張表，空白欄位依規則填補或標記，讓每一筆都能完整使用。

整合完成之後，分析師只要查一個地方，格式統一、無重複、資料完整，出報表從兩天縮到兩小時。

注意：整合流程不負責「要保存多久」。「資料留存幾年」是法規遵循（compliance）或資料治理（data governance）的決策，不在整合的工作範圍。

這就是選項 D 為什麼不屬於資料整合的主要目的：依資料保存政策延長原始資料留存期限，是保存管理的問題，不是整合的目的。

技術版：資料整合在 AI 專案裡的位置

資料整合（Data Integration）屬於 AI 專案流程中「資料準備」（Data Preparation）階段的核心工作，在業界通常被稱為 ETL 流程。

ETL 三個字代表什麼：

E（Extract，擷取）：從各個來源系統抓出原始資料
T（Transform，轉換）：統一格式、去除重複、補全缺漏、標準化欄位
L（Load，載入）：把整理好的資料載進統一的資料倉儲（Data Warehouse）或資料湖（Data Lake）

在 AI 專案中誰負責資料整合：資料工程師（Data Engineer）負責建立整合管線，資料科學家才能拿到乾淨的資料訓練模型。沒有整合這一步，模型訓練出來的結果根本不可信。

資料整合 vs. 資料治理：很多人把這兩件事混在一起，但考試會考區別。資料整合是「技術操作」，讓資料能合在一起分析；資料治理是「政策與管理」，決定資料要保存多久、誰有權限看、如何合規。選項 D 的「延長留存期限」就是治理層面的決策。

為什麼出題者要考這題：AI 應用規劃師在規劃專案時，必須知道資料準備的範疇。如果把「資料保存政策」誤以為是整合的目的，實務上會造成責任混淆，讓 IT 部門跟法務部門各做各的，最後資料管理一片混亂。

05　陷阱

為什麼其他選項是錯的

A統一不同來源資料的格式與欄位定義，以確保分析一致性

字面在說什麼

把各系統格式不同的資料，轉成統一的規格，讓合併後的資料能一起分析。

為什麼不對

這是資料整合的核心目的之一，是 ETL 裡「Transform（轉換）」步驟在做的事。題目問的是「不屬於」，所以 A 是正確目的，不能選。

誰會選錯

沒注意題目問「不屬於」就直接找感覺正確的人。讀題時先畫出「不屬於」三個字，才不會反選。

B識別並處理重複資料，避免影響模型訓練結果

字面在說什麼

找出同一筆資料在不同系統出現多次的情況，去除重複，讓模型訓練時不受干擾。

為什麼不對

去重複（deduplication）是資料整合中「資料品質」的重要工作。多來源合併最容易產生重複，整合流程必須處理這件事。B 是正確目的，不能選。

誰會選錯

以為「重複資料」是資料清洗（data cleaning）的事、跟整合無關的人。實際上資料整合包含清洗，兩者是包含關係。

C整併多來源資料，以提升資料完整性與應用價值

字面在說什麼

把分散在各處的資料集中在一起，讓資料更完整、更有分析價值。

為什麼不對

這幾乎是資料整合的定義本身。「整合」這個動作就是在整併多來源，目的就是提升完整性。C 是最明確的正確目的，不能選。

誰會選錯

沒有讀清楚題目語意、反向選題的人。先確認題目問的是「不屬於」，再把最明顯「屬於」的排除。

06　變形

同個考點下次怎麼變形

變形 1

資料整合跟資料清洗（Data Cleaning）的差別是什麼？

直覺

聽起來都是在「整理資料」，很容易混在一起。

答案

資料清洗專注在單一資料集的品質：補缺漏、修錯值、去噪音。資料整合是跨資料集的合併工作：把來自不同系統的資料合成一份。清洗通常是整合流程的一個步驟，先清再合。

變形 2

ETL 流程的「Transform（轉換）」主要在做什麼？

直覺

ETL 三個字母各代表什麼、哪個步驟做什麼事，是常考細節。

答案

Transform 包含：統一格式、欄位對應、去除重複、補全缺漏、型別轉換、資料正規化。簡單說就是「讓不同來源的資料變成同一種規格，可以合在一張表」。這正是資料整合的核心。

變形 3

資料治理（Data Governance）跟資料整合的主要區別是什麼？

直覺

兩個都跟「管理資料」有關，但考試常考邊界。

答案

資料整合是技術層的操作：讓資料能合起來分析。資料治理是政策層的管理：誰能看、保存多久、如何合規、資料品質標準由誰負責。本題選項 D「延長留存期限」就是治理範疇，不是整合目的。

變形 4

資料倉儲（Data Warehouse）和資料湖（Data Lake）哪個更適合存放整合後的資料？

直覺

兩個都是「集中存放資料的地方」，但定位不同。

答案

資料倉儲存的是結構化、已整理好的資料，適合商業報表和 SQL 查詢。資料湖存的是原始格式、各種類型的資料（結構化、半結構化、非結構化），適合機器學習和大數據分析。AI 專案通常先存資料湖，再整合後搬進倉儲或直接從湖裡訓練。

變形 5

在 AI 模型訓練之前，為什麼資料整合是必要步驟？

直覺

模型不能直接拿散落在各系統的原始資料訓練嗎？

答案

模型只能處理格式一致、語意清楚的資料。如果 POS 說「001-1234」、App 說「巧克力牛奶」，模型無法知道是同一個商品，會把它們當兩個不同特徵學習，訓練出來的模型根本不可信。整合是讓資料「說同一種語言」，是 AI 能上場前必須完成的地基工程。

07　延伸

想再往下看，這 5 個

萃取、轉換、載入（Extract, Transform, Load）資料整合最核心的工業流程，擷取原始資料、統一格式轉換、載入目標系統，是資料整合的具體實現手段。
資料倉儲（Data Warehouse）存放整合後結構化資料的集中系統；資料整合的主要目的正是把分散資料統整到倉儲，供 BI 分析與 AI 訓練使用。
資料管線（Data Pipeline）自動化搬移和轉換資料的工程流程；資料整合通常以資料管線實現，確保各來源資料能持續同步到目標系統。
資料品質監控（Data Quality Monitoring）持續追蹤資料準確性、完整性、一致性；整合完成後的品質監控確保分析結果可信，是整合的後置必要環節。
資料前處理（Data Preprocessing）整合前的必要步驟，涵蓋格式統一、重複值去除、缺漏值填補；整合多來源資料前必須先做前處理，才能保證整合後的資料品質。