iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論

資料整合的目的是什麼?

原題 01

下列何者不屬於資料整合(Data Integration)的主要目的?

白話

資料整合(Data Integration)是把來自不同地方的資料合併起來使用的過程。

問你:下列哪一項不屬於資料整合的主要目的?

點選你的答案。

01 總結

一句話總結

資料整合在做「把資料合起來、讓它能一起用」,延長資料留存期限是保存政策的事,跟整合無關

02 情境

先感受問題:資料散落在不同系統,怎麼辦?

假設你是「好好生活」連鎖超市的資料分析師。公司有三套系統:

  • POS 收銀系統:記錄每筆購買,用「商品代碼 001-1234」格式
  • 會員 App:記錄顧客偏好,用「品名:巧克力牛奶」格式
  • 倉儲系統:記錄庫存,用「SKU: CHOCO-MILK-250」格式

主管說:「幫我分析哪些會員偏好哪類商品、什麼時候庫存要補。」

問題來了:三個系統同一件事用不同名字、不同格式、還有重複和缺漏。你要怎麼讓三份資料「合起來可以一起算」?

這就是資料整合(Data Integration)要解決的問題。

03 對照

沒有資料整合,分析師的日常

在沒有整合流程之前,「好好生活」的分析師每次要出報表都要手動撈:

  1. 格式不一:POS 說「001-1234」,App 說「巧克力牛奶」,根本不知道是不是同一個商品,只能靠人工比對
  2. 重複資料:會員同一天買了兩次但 App 只記一筆,訓練模型時數據就不準
  3. 資料缺漏:有些欄位三個系統填法不同,合併後整欄都是空白
  4. 每次重做:沒有統一流程,每位分析師自己一套方法,出來的數字不一樣
  5. 跨部門無法共用:行銷部跟物流部各自拉各自的資料,結論互相矛盾,開會吵架

每次出一份報表要花兩天手動清資料,大部分時間根本沒在分析,都在修格式。

04 解法

資料整合怎麼解

「好好生活」導入資料整合流程後,做了這幾件事:

第一步:統一格式與欄位定義。決定全公司商品統一用「SKU 編碼」,POS 跟 App 的資料都轉換成這個格式,確保分析時不會張冠李戴。

第二步:識別並處理重複資料。會員同一天的重複購買記錄,用去重複(deduplication)規則清除,避免模型學到假訊號。

第三步:整併多來源、補齊缺漏。三個系統的資料合進同一張表,空白欄位依規則填補或標記,讓每一筆都能完整使用。

整合完成之後,分析師只要查一個地方,格式統一、無重複、資料完整,出報表從兩天縮到兩小時。

注意:整合流程不負責「要保存多久」。「資料留存幾年」是法規遵循(compliance)或資料治理(data governance)的決策,不在整合的工作範圍。

這就是選項 D 為什麼不屬於資料整合的主要目的:依資料保存政策延長原始資料留存期限,是保存管理的問題,不是整合的目的

技術版:資料整合在 AI 專案裡的位置

資料整合(Data Integration)屬於 AI 專案流程中「資料準備」(Data Preparation)階段的核心工作,在業界通常被稱為 ETL 流程。

ETL 三個字代表什麼:

  • E(Extract,擷取):從各個來源系統抓出原始資料
  • T(Transform,轉換):統一格式、去除重複、補全缺漏、標準化欄位
  • L(Load,載入):把整理好的資料載進統一的資料倉儲(Data Warehouse)或資料湖(Data Lake)

在 AI 專案中誰負責資料整合:資料工程師(Data Engineer)負責建立整合管線,資料科學家才能拿到乾淨的資料訓練模型。沒有整合這一步,模型訓練出來的結果根本不可信。

資料整合 vs. 資料治理:很多人把這兩件事混在一起,但考試會考區別。資料整合是「技術操作」,讓資料能合在一起分析;資料治理是「政策與管理」,決定資料要保存多久、誰有權限看、如何合規。選項 D 的「延長留存期限」就是治理層面的決策。

為什麼出題者要考這題:AI 應用規劃師在規劃專案時,必須知道資料準備的範疇。如果把「資料保存政策」誤以為是整合的目的,實務上會造成責任混淆,讓 IT 部門跟法務部門各做各的,最後資料管理一片混亂。

05 陷阱

為什麼其他選項是錯的

A統一不同來源資料的格式與欄位定義,以確保分析一致性

字面在說什麼

把各系統格式不同的資料,轉成統一的規格,讓合併後的資料能一起分析。

為什麼不對

這是資料整合的核心目的之一,是 ETL 裡「Transform(轉換)」步驟在做的事。題目問的是「不屬於」,所以 A 是正確目的,不能選。

誰會選錯

沒注意題目問「不屬於」就直接找感覺正確的人。讀題時先畫出「不屬於」三個字,才不會反選。

B識別並處理重複資料,避免影響模型訓練結果

字面在說什麼

找出同一筆資料在不同系統出現多次的情況,去除重複,讓模型訓練時不受干擾。

為什麼不對

去重複(deduplication)是資料整合中「資料品質」的重要工作。多來源合併最容易產生重複,整合流程必須處理這件事。B 是正確目的,不能選。

誰會選錯

以為「重複資料」是資料清洗(data cleaning)的事、跟整合無關的人。實際上資料整合包含清洗,兩者是包含關係。

C整併多來源資料,以提升資料完整性與應用價值

字面在說什麼

把分散在各處的資料集中在一起,讓資料更完整、更有分析價值。

為什麼不對

這幾乎是資料整合的定義本身。「整合」這個動作就是在整併多來源,目的就是提升完整性。C 是最明確的正確目的,不能選。

誰會選錯

沒有讀清楚題目語意、反向選題的人。先確認題目問的是「不屬於」,再把最明顯「屬於」的排除。

06 變形

同個考點下次怎麼變形

變形 1

資料整合跟資料清洗(Data Cleaning)的差別是什麼?

直覺

聽起來都是在「整理資料」,很容易混在一起。

答案

資料清洗專注在單一資料集的品質:補缺漏、修錯值、去噪音。資料整合是跨資料集的合併工作:把來自不同系統的資料合成一份。清洗通常是整合流程的一個步驟,先清再合。

變形 2

ETL 流程的「Transform(轉換)」主要在做什麼?

直覺

ETL 三個字母各代表什麼、哪個步驟做什麼事,是常考細節。

答案

Transform 包含:統一格式、欄位對應、去除重複、補全缺漏、型別轉換、資料正規化。簡單說就是「讓不同來源的資料變成同一種規格,可以合在一張表」。這正是資料整合的核心。

變形 3

資料治理(Data Governance)跟資料整合的主要區別是什麼?

直覺

兩個都跟「管理資料」有關,但考試常考邊界。

答案

資料整合是技術層的操作:讓資料能合起來分析。資料治理是政策層的管理:誰能看、保存多久、如何合規、資料品質標準由誰負責。本題選項 D「延長留存期限」就是治理範疇,不是整合目的。

變形 4

資料倉儲(Data Warehouse)和資料湖(Data Lake)哪個更適合存放整合後的資料?

直覺

兩個都是「集中存放資料的地方」,但定位不同。

答案

資料倉儲存的是結構化、已整理好的資料,適合商業報表和 SQL 查詢。資料湖存的是原始格式、各種類型的資料(結構化、半結構化、非結構化),適合機器學習和大數據分析。AI 專案通常先存資料湖,再整合後搬進倉儲或直接從湖裡訓練。

變形 5

在 AI 模型訓練之前,為什麼資料整合是必要步驟?

直覺

模型不能直接拿散落在各系統的原始資料訓練嗎?

答案

模型只能處理格式一致、語意清楚的資料。如果 POS 說「001-1234」、App 說「巧克力牛奶」,模型無法知道是同一個商品,會把它們當兩個不同特徵學習,訓練出來的模型根本不可信。整合是讓資料「說同一種語言」,是 AI 能上場前必須完成的地基工程。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 115 年第一次 iPAS AI 應用規劃師 初級 科目一 人工智慧基礎概論 第 1 題

查看官方原文 PDF