交叉驗證 是什麼?
Cross-Validation — 交叉驗證 的完整解釋
交叉驗證是一種將資料分成多份,輪流以不同子集作為驗證集,藉此評估模型泛化能力的技術
容易混淆
validation-set vs 單一驗證集:單一驗證集像只考一份模擬考,結果可能不準確,容易過度樂觀或悲觀;交叉驗證則像考好幾份模擬考,能更全面地評估模型的真實實力。 常見混淆:交叉驗證 vs validation-set 單一驗證集只切一次,交叉驗證會輪流驗證多次。
記住這句就好
不是只考一次,是輪流考好多次。
實際案例
小資料集選模 樣本少時,用交叉驗證比單次切分更可靠。 超參數比較 不同參數組合都跑幾輪,平均後再決定誰比較穩。
算法與應用
- 常見做法是 k-fold,把資料分成 k 份輪流驗證。
- 它能降低單次切分的運氣成分,但不等於完全消除過擬合。
- 如果資料量很大,單一驗證集有時就夠用,因為計算成本更低。
情境判斷
Q1:你只有很少資料,還想比較兩個模型,該用什麼? → 交叉驗證通常更適合,因為它能讓評估更穩。 Q2:交叉驗證做完就不用測試集了嗎? → 不是,測試集還是要保留,最後確認泛化能力時不能拿來訓練。
交叉驗證 在 iPAS 考試中的重點
根據歷年統計,交叉驗證 相關題目 平均佔 AI 技術類考題 7%, 屬於高頻考範圍。
常見出題方向:類神經網路架構(40%)、模型訓練與評估(35%)、防止過擬合的策略(25%)。
相關術語
常見問題
交叉驗證和驗證集有什麼不同?
交叉驗證使用多個驗證集來評估模型,而傳統的驗證集只使用單一一個驗證集。交叉驗證通過多次訓練和驗證,取平均結果,能更全面地評估模型在不同資料子集上的表現,降低模型評估的偶然性。驗證集則通常用於在模型訓練過程中調整超參數,但其評估結果可能受到該特定驗證集資料分佈的影響。
什麼時候應該使用交叉驗證?
當資料量相對較小,且需要更可靠地評估模型效能時,應使用交叉驗證。尤其是在模型選擇、超參數調整或比較不同模型時,交叉驗證可以提供更穩定的評估結果,降低模型過度擬合的風險。如果資料量非常大,且計算資源有限,則可以考慮使用單一驗證集。
初學者學習交叉驗證最常見的誤解是什麼?
初學者最常見的誤解是認為交叉驗證可以完全避免過度擬合。雖然交叉驗證可以降低過度擬合的風險,但並不能完全消除它。如果訓練資料本身存在偏差或雜訊,或者模型結構過於複雜,即使使用交叉驗證,仍然可能出現過度擬合的情況。因此,除了交叉驗證之外,還需要注意資料清洗、特徵選擇和模型簡化等方法。
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定