---
title: "合成數據（Synthetic Data）"
slug: synthetic-data
language: zh-TW
source: https://aiterms.tw/terms/synthetic-data
updated_at: 2026-04-29
tags: [生成式AI, 資料處理, 模型訓練, 機器學習, AI倫理與治理]
ipas_term: false
---

# 合成數據（Synthetic Data）

> **你有沒有想過，資料不是多就好，格式對不對更重要？**
>
> 你可以把它想成欄位和來源都很規矩的資料。
> 合成數據 的重點是 合成數據是指通過程式或演算法生成的人工數據，而非從真實世界收集的數據。它常用於訓練AI模型，特別是在真實數據稀缺或涉及隱私問題時。
> 它重要，是因為資料越規整，分析、建模和權限控管就越省力。

### 容易混淆
> **合成數據 vs 資料擴增術**
> 合成數據：偏向 把資料整理成清楚格式
> 資料擴增術：偏向 用擾動擴大資料
> 最關鍵的區別：合成數據看的是「把資料整理成清楚格式」，資料擴增術看的是「用擾動擴大資料」。
>
> **合成數據 vs 模擬至實轉移**
> 合成數據：偏向 把資料整理成清楚格式
> 模擬至實轉移：偏向 從模擬轉到真實世界
> 最關鍵的區別：合成數據看的是「把資料整理成清楚格式」，模擬至實轉移看的是「從模擬轉到真實世界」。
>

### 記住這句就好
> 欄位固定，規則清楚，就是加分。

### 實際案例
> **案例：Excel 表格和資料庫表格**
> 欄位固定，適合直接查詢與分析
>
> **案例：把雜亂日誌整理成欄位**
> 先規整，再進資料倉儲或分析流程
>

### 深入了解
> 欄位有定義、型別固定，查詢和統計最方便
> 資料來源與品質越清楚，後續整合成本越低
> 原始資料、整理後資料和合成資料，要先分清楚

### 情境判斷
> **Q1（直覺題）：** Excel 報表能不能直接拿去分析？
> → 可以，只要欄位定義清楚、型別一致，就很適合。
>
> **Q2（判斷題）：** JSON 和日誌算不算完全不能用？
> → 看情況，它們可以先整理成結構化欄位，再拿去分析或建模。
>

### 常見問題
> **Q：什麼樣的資料最適合先做結構化整理？**
> 欄位重複出現、後續又常被查詢或彙整的資料，最值得先整理。
>
> **Q：這種資料一定比其他資料更好嗎？**
> 不一定，若資料本來就是圖片、語音或原始文本，硬轉成表格反而會丟掉資訊。
>
> **Q：合成資料算不算真的資料？**
> 它不是原始真資料，但如果來源、分布和用途控制得好，仍然能在訓練和測試裡發揮作用。
>

### 相關術語
> - **資料擴增術**：先看它，能補基礎
> - **模擬至實轉移**：對照它，能分清邊界
> - **資料投毒攻擊**：它常一起出現
> - **差分隱私**：它能補常見使用情境

---

來源：https://aiterms.tw/terms/synthetic-data
快查頁：https://aiterms.tw/terms/synthetic-data
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-synthetic-data