合成數據 是什麼?
Synthetic Data — 合成數據 的完整解釋
合成數據是指通過程式或演算法生成的人工數據,而非從真實世界收集的數據。它常用於訓練AI模型,特別是在真實數據稀缺或涉及隱私問題時。
容易混淆
合成數據 vs 資料擴增術 合成數據:偏向 把資料整理成清楚格式 資料擴增術:偏向 用擾動擴大資料 最關鍵的區別:合成數據看的是「把資料整理成清楚格式」,資料擴增術看的是「用擾動擴大資料」。
合成數據 vs 模擬至實轉移 合成數據:偏向 把資料整理成清楚格式 模擬至實轉移:偏向 從模擬轉到真實世界 最關鍵的區別:合成數據看的是「把資料整理成清楚格式」,模擬至實轉移看的是「從模擬轉到真實世界」。
記住這句就好
欄位固定,規則清楚,就是加分。
實際案例
案例:Excel 表格和資料庫表格 欄位固定,適合直接查詢與分析
案例:把雜亂日誌整理成欄位 先規整,再進資料倉儲或分析流程
深入了解
欄位有定義、型別固定,查詢和統計最方便 資料來源與品質越清楚,後續整合成本越低 原始資料、整理後資料和合成資料,要先分清楚
情境判斷
Q1(直覺題): Excel 報表能不能直接拿去分析? → 可以,只要欄位定義清楚、型別一致,就很適合。
Q2(判斷題): JSON 和日誌算不算完全不能用? → 看情況,它們可以先整理成結構化欄位,再拿去分析或建模。
相關術語
常見問題
什麼樣的資料最適合先做結構化整理?
欄位重複出現、後續又常被查詢或彙整的資料,最值得先整理。
這種資料一定比其他資料更好嗎?
不一定,若資料本來就是圖片、語音或原始文本,硬轉成表格反而會丟掉資訊。
合成資料算不算真的資料?
它不是原始真資料,但如果來源、分布和用途控制得好,仍然能在訓練和測試裡發揮作用。