iPAS AI 應用規劃師中級　科目一

超參數調校在 K-Fold 交叉驗證資料上同步進行，最可能導致什麼問題？

原題 41

在進行超參數調校（Hyperparameter Tuning）時，若直接在 K-Fold 交叉驗證（Cross-Validation）的資料上同時調整模型參數並評估效能，最可能導致下列哪一種問題？

白話

超參數調校（Hyperparameter Tuning）是指選擇像「學習率要多大」「樹的深度要幾層」這類在訓練前就要決定的設定。

K-Fold 交叉驗證是把資料切成 K 份，輪流把其中一份當「驗證集」來評估模型品質。

問你：如果你直接在 K-Fold 的資料上一邊選超參數、一邊評估效能，最可能出現什麼問題？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

在 K-Fold 交叉驗證上直接做超參數調校，最大的問題是：驗證摺的資料間接影響了超參數的選擇，等於「驗證集洩漏進訓練決策」，讓最終評估結果過度樂觀，低估了真實錯誤率，這就是資料洩漏（Data Leakage）。

02　情境

先感受問題：為什麼驗證集不能參與超參數選擇

假設「金融風控公司」的工程師永杰，在用隨機森林（Random Forest）預測貸款違約。他有 1000 筆資料，打算用 5-Fold 交叉驗證評估模型。

正確的流程應該是：

第 1 輪：Fold 2~5 = 訓練集，Fold 1 = 驗證集 → 評估一次效能
第 2 輪：Fold 1, 3~5 = 訓練集，Fold 2 = 驗證集 → 評估一次效能
... 共 5 輪，5 個效能分數取平均

但永杰做了一件事：他同時在這個過程中選最佳的樹深度（max_depth）。他試了 max_depth = 3, 5, 10, 20，每個都跑完 5-Fold，選出交叉驗證分數最高的那個。

問題在哪？每次評估驗證摺（如 Fold 1）的效能，都會影響他選哪個 max_depth。等於 Fold 1 的資料間接參與了「選哪個超參數」的決定。最後報告的「交叉驗證準確率」是用已經被選過的最佳超參數得出的，比真實的模型泛化能力高估了。

03　對照

為什麼「驗證集參與選超參數」等同於資料洩漏

理解資料洩漏（Data Leakage）的五個面向：

驗證集的本質：驗證集是用來「模擬未來看不到的資料」的。它的評估分數只有在它「從未參與過任何訓練決策」時才有意義。
超參數選擇是訓練決策的一部分：選 max_depth = 10 還是 20，這個決定是訓練流程的一部分。如果這個決定受到驗證集表現的影響，驗證集等於「變相地參與了訓練」。
過度樂觀偏差的機制：試了 100 種超參數組合，每一種都在驗證集上評估，最後選「驗證集分數最高」的那個。這等於在驗證集上做了 100 次比較，最後挑到的分數是 100 次裡最幸運的一次，而不是真實的泛化能力。
類比：考試洩題：如果學生考試前先看過題目，考出來的成績就不代表真實程度。超參數調校時用驗證集選模型，和這個道理完全一樣。
問題的嚴重程度與超參數搜尋次數成正比：只試 2 種超參數，洩漏程度小；試了 Grid Search 的 1000 種組合，每種都在同一個驗證集上評估，洩漏程度非常大。

04　解法

正確做法：巢狀交叉驗證隔離超參數選擇和評估

永杰的正確做法是「巢狀交叉驗證」（Nested Cross-Validation）：

外層 K-Fold（評估用）：把 1000 筆資料切成 5 份
對外層的每個 Fold 輪流當「外層測試集」：
　→ 剩下 4 份交給「內層 K-Fold」
　→ 內層 K-Fold 負責超參數調校（選 max_depth）
　→ 用內層選出的最佳超參數，在外層測試集上評估
5 個外層評估分數取平均 = 可信的泛化能力估計

這樣，外層測試集從未參與過超參數選擇的過程，它的評估分數才是可信的。

外層 5 個分數的平均，代表「在新資料上，這個超參數調校流程能達到的真實效能」，不是「在已見過的資料上挑出的最好結果」。

洩漏被阻斷的關鍵：超參數選擇只看內層的驗證分數，外層的測試集完全不知道超參數怎麼選的，它只負責最後評分。

這就是選項 A 講的：驗證摺資料間接參與了參數選擇，造成資料洩漏，交叉驗證結果過度樂觀偏差。

技術版：巢狀交叉驗證的實作與統計意涵

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

用 scikit-learn 實作巢狀交叉驗證：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score, KFold

# 外層交叉驗證
outer_cv = KFold(n_splits=5, shuffle=True, random_state=42)

# 超參數搜尋（內層）
param_grid = {'max_depth': [3, 5, 10, 20]}
inner_cv = KFold(n_splits=3, shuffle=True, random_state=42)
clf = GridSearchCV(RandomForestClassifier(), param_grid, cv=inner_cv)

# 巢狀交叉驗證的外層評估
nested_scores = cross_val_score(clf, X, y, cv=outer_cv)
print(f"外層 CV 均值：{nested_scores.mean():.3f}")
# 這才是真實的泛化能力估計，沒有資料洩漏

Step 1 純故事版

外層：把資料切成 5 份，輪流拿出 1 份當「期末考」
內層：在剩下 4 份上做超參數調校，挑出最佳設定
用內層挑出的最佳設定，在外層「期末考」上評分
5 次期末考分數取平均 = 真實泛化能力

Step 2 中文 ↔ 程式碼對照

故事	程式碼
外層交叉驗證（評估用）	outer_cv = KFold(n_splits=5)
超參數搜尋空間	param_grid = {'max_depth': [3,5,10,20]}
內層交叉驗證（選超參數用）	inner_cv = KFold(n_splits=3)
包裝成自動調校器	clf = GridSearchCV(..., cv=inner_cv)
巢狀評估，拿到真實分數	cross_val_score(clf, X, y, cv=outer_cv)

Step 3 符號角色表

KFold(n_splits=5): 把資料切成 5 份的交叉驗證器。外層用來評估整體流程的泛化能力。
GridSearchCV: 網格搜尋：窮舉所有超參數組合，在內層 CV 上各跑一遍，選最好的。
cross_val_score: 執行外層 CV，對每個外層 Fold，先讓 GridSearchCV 在訓練部分選超參數，再在外層測試部分評估，最後回傳 5 個分數。
nested_scores.mean(): 5 個外層分數的平均，代表這個「先選超參數再訓練」的完整流程，在新資料上的真實表現。

Step 4 完整公式對應

本題沒有數學公式，但有一個重要的統計概念：

「樂觀偏差」的大小約等於：在驗證集上比較的超參數組合越多，偏差越大。若你試了 M 種超參數，每種在同一驗證集上評估，最終報告的分數大約高估了真實泛化能力的 O(log M / n) 量級（n 是樣本數）。試越多、樣本越少，高估越嚴重。

Step 5 自我複述

蓋住程式碼，說出巢狀交叉驗證的 4 步：

外層 KFold 切資料，每輪拿 1 份當外層測試集
在剩下的資料上跑 GridSearchCV（內層 CV），選最佳超參數
用最佳超參數在外層測試集上評估
外層 5 個分數取平均，是不含洩漏的真實估計

05　陷阱

為什麼其他選項是錯的

B模型會在每一摺（Fold）內反覆調整參數，導致訓練不穩與過度正則化

字面在說什麼

說在每個 Fold 裡反覆調整參數會讓訓練不穩，最終過度正則化。

為什麼不對

超參數調校和「過度正則化」是兩個不同的問題。超參數搜尋（如 Grid Search）確實在每個 Fold 裡試不同組合，但這不會導致「過度正則化」，兩者沒有因果關係。題目要問的核心問題是「驗證集被污染（Data Leakage）」，選項 B 完全沒有說到這一點，是對超參數調校問題的錯誤描述。

誰會選錯

對「正則化」和「超參數搜尋」的關係有模糊聯想的考生，聽到「反覆調整」就想到過度正則化。記住：超參數搜尋最大的風險是資料洩漏導致評估偏樂觀，不是過度正則化。

C因交叉驗證資料被重複使用，造成效能方差增大，無法獲得穩定估計

字面在說什麼

說資料被重複用，所以評估結果的波動（方差）變大，估計不穩定。

為什麼不對

資料重複使用確實是問題，但造成的主要後果不是「方差增大」，而是「偏差增大（過度樂觀）」。這是一個精準的統計學術語辨別題：Data Leakage 造成的是系統性偏差（Bias），讓評估結果一致性地高估真實效能，而不是讓評估結果變得不穩定（方差大）。選項 C 說的後果方向是錯的。

誰會選錯

知道「資料重複使用有問題」但分不清後果是「偏差增大」還是「方差增大」的考生。核心記憶點：資料洩漏 → 過度樂觀偏差（Bias 問題）；隨機採樣不穩定 → 方差問題（Variance 問題）。

DK-Fold 交叉驗證的假設與超參數搜尋相衝突，導致驗證過程失效

字面在說什麼

說 K-Fold 的數學假設和超參數搜尋有衝突，導致整個驗證流程失效。

為什麼不對

K-Fold 交叉驗證和超參數搜尋沒有根本假設上的衝突，兩者可以同時使用，正確的做法就是巢狀交叉驗證。問題不是「流程失效」，而是「流程沒做對會產生洩漏偏差」。選項 D 的描述過於絕對，且誤導考生以為 K-Fold 和超參數搜尋無法共存，實際上它們是可以正確搭配的。

誰會選錯

讀到「交叉驗證的假設被違反」感覺似乎有道理的考生。K-Fold 的假設是每個 Fold 輪流當公正的測試集，這個假設在巢狀交叉驗證裡是被保留的，不是被違反的。

06　變形

同個考點下次怎麼變形

變形 1　邊界

如果只試 1 種超參數組合，還需要巢狀交叉驗證嗎？

直覺

只有一種設定，沒有「選擇」的過程，洩漏應該不存在？

答案

如果真的只有一組超參數，且這組超參數是在開始實驗前就固定的（不是根據資料選的），那單層 K-Fold 就夠了，不需要巢狀。問題在「選擇」這個行為本身。沒有選擇就沒有洩漏。但實務上，研究員通常不可能只試一組，而且「固定超參數」的決策本身往往受到領域知識或預實驗的影響，完全的洩漏隔離幾乎不可能，巢狀 CV 是最嚴格的做法。

變形 2　反例

資料洩漏（Data Leakage）除了超參數選擇，還有哪些常見形式？

直覺

洩漏就是「訓練集看到測試集的資料」？

答案

資料洩漏的形式很多：(1) Target Leakage（目標洩漏）：用來預測的特徵包含了「結果發生後才知道的資訊」，例如預測病人是否患病，但特徵裡包含「出院原因」；(2) Train-Test Contamination：做特徵縮放（StandardScaler）時，用整個資料集（含測試集）的均值和標準差，而不是只用訓練集；(3) 時間序列資料洩漏：未來的資料出現在訓練集裡（如用明天的股價預測今天的買賣決策）；(4) 超參數洩漏（本題）：測試集評估分數影響了超參數選擇。

變形 3　升級版

巢狀交叉驗證計算成本高，有沒有替代方案？

直覺

5-Fold 外層 × 3-Fold 內層 × 100 種超參數 = 1500 次訓練，太貴了？

答案

有幾個替代方案：(1) 簡單 Train/Val/Test 三切法：把資料固定切三份，超參數在驗證集上選，最終報告用測試集。測試集從未用於選超參數，洩漏隔離清楚，但資料利用率低；(2) 隨機搜尋（Random Search）取代網格搜尋：減少試的組合數，降低洩漏偏差的量級；(3) 貝氏優化（Bayesian Optimization）：更聰明地選超參數，試更少組合就能找到好的設定；(4) 保守評估策略：接受少量洩漏偏差，但在報告時說明超參數是在驗證集上選的，誠實說明評估可能偏樂觀。

變形 4　跨領域

超參數洩漏問題在深度學習中更嚴重還是更輕微？

直覺

深度學習的超參數（學習率、層數）不也是用驗證集選的？

答案

深度學習的超參數洩漏問題通常更嚴重，原因有三：(1) 試的超參數組合更多（學習率 × 層數 × dropout × batch size 的組合空間巨大）；(2) 深度學習界普遍使用的「早停（Early Stopping）」本身就依賴驗證集，Early Stopping 的時機也是一種被驗證集資訊影響的決策；(3) 論文競賽效應：研究員反覆在同一個測試集（如 ImageNet 的排行榜）上調整模型，整個社群集體「看過」測試集，造成大規模的集體洩漏，這也是 ImageNet 基準已逐漸失去代表性的原因。

變形 5　評估指標

怎麼知道自己的模型評估結果有多少樂觀偏差？

直覺

感覺上有偏差，但怎麼量化偏差的大小？

答案

標準做法是比較兩個評估分數：(1) 非巢狀 CV 分數（含洩漏）：直接在 K-Fold 上選超參數後報告的分數；(2) 巢狀 CV 分數（無洩漏）：巢狀交叉驗證的外層分數。兩者的差值就是「樂觀偏差的大小」。若差值超過 2~3 個百分點，代表洩漏問題嚴重，模型的真實泛化能力被明顯高估。scikit-learn 的文件提供了這個比較的範例程式碼，可以直接使用。

07　延伸

想再往下看，這 5 個

超參數調校（Hyperparameter Tuning）訓練前決定的設定無法從資料直接學習，需在驗證集上搜尋最佳值；本題考的是在 K-Fold 上同步調校所導致的資料洩漏問題。
交叉驗證（Cross-Validation）將資料切為多折輪流當驗證集的評估方法；若超參數直接在同一份 K-Fold 資料上調整，驗證折會「洩漏」資訊給超參數選擇，導致評估過度樂觀。
過擬合（Overfitting）模型對訓練資料學得太好而泛化能力差；超參數調校洩漏是一種隱性過擬合，外部看起來效能好，實際部署後卻大幅下降。
網格搜尋（Grid Search）窮舉所有超參數組合並在驗證集上評估，若驗證集與調校過程重疊會使「最佳組合」虛高；正確做法是搭配巢狀 CV 或獨立 Holdout 集。
隨機搜尋（Random Search）在超參數空間隨機採樣，比 Grid Search 計算成本低且常能找到相當好的組合；同樣需注意避免在 K-Fold 資料上同步評估造成洩漏。