解析:
為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。
你有沒有遇過,有些資料數值特別大,讓模型看起來被它們牽著走? 你可以把它想成先把每個樣本縮到差不多的大小,讓模型比較的是方向或比例,而不是原始大小。 正規化的重點是把樣本向量拉到固定範數,避免尺度太大造成偏差。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。
正規化 vs 標準化 正規化:把每個樣本縮到固定範數 標準化:把特徵拉成平均 0、標準差 1 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
正規化 vs 特徵縮放 正規化:通常處理樣本向量 特徵縮放:通常處理欄位數值範圍 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
把每個樣本縮到差不多長。
文本向量 把長短不同的文件向量正規化,方便比較相似度。
影像特徵 在某些嵌入模型裡,正規化後距離比較有意義。
L1 和 L2 正規化最常見,前者偏稀疏,後者更平滑。 它常和餘弦相似度、向量檢索、以及度量學習搭配。 如果你的模型很怕向量長度影響結果,正規化通常很有用。
Q1(直覺題): 兩篇文件長度差很多,但你只想比較語意方向,該做什麼?
Q2(判斷題): 如果你的特徵本來就有絕對大小意義,還能隨便正規化嗎?
不一樣,目標和處理對象都不同。
不一定,要看任務是否真的需要控制向量長度。
看你要不要稀疏表示,以及對離群值敏感不敏感。
資料科學團隊在模型訓練前,需對數值特徵進行正規化(Normalization)或標準化(Standardization)。為確保模型評估結果具真實性並避免資料洩漏(Data Leakage),下列何者為最適當的作法?
解析:
為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。