iPAS AI 應用規劃師初級　科目一　人工智慧基礎概論

哪個是結構化數據的例子？

原題 15

在資料處理中，下列何者屬於「結構化數據」的例子？

白話

資料處理中，依格式不同可以分成「結構化數據」和其他類型。題目給出四個儲存方式不同的資料例子。

問你：下列哪一個例子屬於「結構化數據」？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

MySQL 資料庫中的訂單記錄是結構化數據，因為它存在關聯式資料庫的表格裡，每一欄有明確定義、可直接用 SQL 查詢。JSON/XML 是半結構化，純文字對話是非結構化。

02　情境

先感受問題：同樣是「訂單資料」，存的地方不同差很多

「快樂電商」的資料工程師蘇建宏要分析過去一年的訂單，找出哪些商品最賺錢。他手上有四份資料：

資料庫裡的訂單表（order_id、customer_id、amount、date 每欄都定義好了）
物流 API 回傳的 JSON 檔（有鍵值對，但格式不完全固定）
供應商寄來的 XML 產品目錄（有標籤結構，但巢狀複雜）
客服系統的對話紀錄 txt 檔（客服隨手記的文字，沒有格式）

哪份資料可以直接 SELECT * FROM orders WHERE date > '2024-01-01'？只有第一份，因為它住在關聯式資料庫裡，欄位清楚、格式固定、可以直接查。

這就是結構化數據的本質：住在資料庫表格裡，欄位有定義，可以直接查詢計算。

03　對照

如果所有資料都是「非結構化」，分析師的日子

假設「快樂電商」在 MySQL 導入之前，所有訂單都是 Excel 或文字檔，蘇建宏要分析就會碰到：

欄位定義不統一：A 同事記「金額」，B 同事記「total」，同一件事不同名字，無法合併計算
格式不一致：日期有人寫「2024/01/15」，有人寫「15-Jan-2024」，合起來計算就出錯
無法快速查詢：一年三十萬筆訂單，只能用 Ctrl+F 搜尋，完全沒辦法跑統計
重複和缺漏沒有約束：同一張訂單被記兩次，或者必填欄位空著，資料庫無法阻止這種情況
多人協作出亂子：每個人都能任意修改格式，資料越來越亂

把資料放進有結構定義的關聯式資料庫，才能解決這些問題。

04　解法

結構化數據是什麼、住在哪裡

「快樂電商」把訂單放進 MySQL 之後，有幾個關鍵特性：

明確的 Schema（綱要）。訂單表定義了七個欄位：order_id（整數）、customer_id（整數）、product_name（文字，最多 100 字元）、amount（小數）、status（文字）、created_at（日期時間）。每一筆資料都必須符合這個格式，不能亂填。

可以直接用 SQL 查詢和計算。蘇建宏輸入一行指令就能得到「2024 年第一季、金額超過 1000 元的訂單總數」。這是結構化數據的核心優勢。

資料完整性約束。資料庫能強制「order_id 不能重複」「amount 不能是負數」，保護資料品質。

反過來，JSON 和 XML 雖然有階層和鍵值對，但格式不固定（JSON 的鍵可以任意增減），屬於半結構化數據。純文字對話完全沒有格式定義，是非結構化數據。

這就是選項 A 的正確理由：MySQL 資料庫的訂單記錄存在關聯式資料庫裡，有明確的表格結構和欄位定義，是最典型的結構化數據。

技術版：結構化、半結構化、非結構化的分類地圖

AI 和資料工程領域把資料分三類，考試必考：

結構化數據（Structured Data）：存在關聯式資料庫（RDBMS）中，有固定的表格格式和 Schema，每筆資料都有明確欄位和型別。例子：MySQL、PostgreSQL、Oracle 資料庫裡的交易記錄、員工資料、庫存數量。可直接用 SQL 查詢。

半結構化數據（Semi-structured Data）：有自描述標記（標籤或鍵值對），但格式不完全固定，不能直接放進關聯式表格。例子：JSON、XML、YAML、CSV（有時算這類）、NoSQL 資料庫（MongoDB）。需要解析（parsing）才能使用。

非結構化數據（Unstructured Data）：沒有預定義格式，電腦無法直接「理解」其內容。例子：純文字文件、電子郵件內文、社群媒體貼文、圖片、影片、音訊。需要 NLP 或電腦視覺等 AI 技術才能提取資訊。

一個常考的混淆點：JSON 和 XML 有鍵值對和標籤，感覺很「結構化」，但它們是半結構化。因為 JSON 的鍵可以自由增刪、值的型別不固定，不像關聯式資料庫有嚴格的 Schema 約束。

為什麼出題者考這題：AI 專案的第一步是了解手上有什麼數據、數據的格式如何，決定用什麼工具處理。搞錯資料類型，在資料準備階段就會走錯路。

05　陷阱

為什麼其他選項是錯的

B以 JSON 格式儲存的商品訂單資訊

字面在說什麼

用 {"order_id": 1, "product": "書包", "amount": 599} 這種鍵值對格式存的訂單。

為什麼不對

JSON 是半結構化數據。雖然有鍵值對，但 JSON 的鍵名可以不固定、值可以是任意型別、可以無限巢狀，沒有嚴格的 Schema 定義。它不能直接放進關聯式表格，需要解析才能分析。

誰會選錯

看到 JSON「有格式、有鍵值對」就以為是結構化的人。結構化的關鍵是「關聯式資料庫裡有 Schema 定義的表格」，不是「有格式就算」。

C用 XML 標注的產品目錄

字面在說什麼

用 <product><name>書包</name><price>599</price></product> 這種標籤格式記錄的產品資訊。

為什麼不對

XML 跟 JSON 一樣是半結構化數據。有標籤、有階層結構，但標籤名稱可以自由定義、不同文件可以有不同結構，需要 XML 解析器才能讀取，不能直接 SQL 查詢。

誰會選錯

以為 XML「很嚴格、有標籤規範」就等於結構化的人。XML 的嚴格性是在語法層面（標籤要閉合），不是在資料模型層面的結構化。

D儲存在純文字檔案中的客服對話紀錄

字面在說什麼

客服和顧客的對話文字，存成 .txt 檔，沒有任何格式標記。

為什麼不對

純文字是最典型的非結構化數據。沒有欄位定義、沒有固定格式、電腦無法直接理解語意，需要 NLP 技術（如情感分析、主題分類）才能提取有用資訊。

結構化數據（Structured Data）存在關聯式資料庫、有明確 Schema 和表格格式的數據，可用 SQL 直接查詢，是傳統商業分析的主力資料類型
半結構化數據（Semi-structured Data）有自描述標記但格式不完全固定的數據，如 JSON、XML，需要解析器才能讀取，廣泛用於 API 傳輸和 NoSQL 資料庫
非結構化數據（Unstructured Data）無預定義格式的數據，如文字、圖片、影片，佔全球資料量 80% 以上，是深度學習和 NLP 的主要處理對象
資料湖（Data Lake）集中儲存各種類型原始數據（結構化、半結構化、非結構化）的儲存系統，讓 AI 能從同一個地方取得多種格式的資料
向量資料庫（Vector Database）儲存非結構化數據轉換成向量嵌入（Embedding）後的特殊資料庫，讓 AI 能進行語意搜尋，是 RAG 系統的核心元件