解析:
為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。
泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律,並應用於新數據。|本頁含完整原理、應用場景、iPAS 考試重點與 4 個常見問答。
你有沒有看過模型在練習題很強,一換新題就掉分?
你可以把泛化能力想成模型把學到的規則用到沒看過資料上的本事,而不是只會背訓練集。
它重要,是因為真正上線後遇到的資料,幾乎都不會和訓練集一模一樣。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
泛化能力 vs 過擬合 過擬合是只會記訓練資料。 泛化能力是遇到新資料也能表現穩。
泛化能力 vs 欠擬合 欠擬合是連訓練資料都學不好。 泛化能力好,代表學到的是可延伸的規律。
新資料也能做對,才叫真的學會。
圖像分類 模型在訓練集很高分,但換到新拍的照片就錯很多,代表泛化不足。
文本分類 在舊新聞上準,不代表遇到新詞、新事件時還能穩,這就是泛化能力要檢查的地方。
評估泛化能力最常看驗證集、測試集和交叉驗證。 提升方法常包含更多資料、正則化、特徵工程、資料清理和模型簡化。
Q1: 如果模型訓練分數高、測試分數低,通常先懷疑什麼?
Q2: 如果訓練分數和測試分數都很低,問題還只是泛化嗎?
可以,通常看未見資料上的表現差距。
不一定,資料品質和代表性也很重要。
因為它能抑制過度擬合,幫助泛化。
常可以,尤其當目標資料少時。
資料科學團隊在模型訓練前,需對數值特徵進行正規化(Normalization)或標準化(Standardization)。為確保模型評估結果具真實性並避免資料洩漏(Data Leakage),下列何者為最適當的作法?
解析:
為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。
某零售企業在建置機器學習模型預測顧客購買機率時,資料同時包含大量稀疏類別特徵與數值型特徵。團隊希望模型既能學習過去已出現的特徵組合規律,也能對未出現的特徵組合做出合理預測。下列哪一種模型架構最適合此類需求?
解析:
寬深模型(Wide and Deep)結合了 Wide 部分(記憶已見特徵組合)和 Deep 部分(泛化到未見組合)的優勢,特別適合同時處理稀疏類別特徵和數值型特徵,且能兼顧記憶與泛化能力。