資料前處理 是什麼?
Data Preprocessing — 資料前處理 的完整解釋
資料前處理是指在將原始資料用於機器學習模型之前,對其進行清理、轉換和整合的過程,以提高模型效能和準確性。
容易混淆
feature-engineering vs 特徵工程:前處理是把原始資料整理乾淨,讓它「能用」;特徵工程是在乾淨資料上創造新的、更有用的「特徵」,讓模型「更好用」。 常見混淆:資料前處理 vs feature-engineering 前處理是把資料整理好,特徵工程是在乾淨資料上做出更有用的特徵。
記住這句就好
先整理好,再讓模型學。
實際案例
缺值清理 把空白欄位補值或標記,避免模型直接報錯。 數值縮放 把收入、年齡和次數放到比較可比的尺度。
算法與應用
- 前處理包括清理、轉換、整合和縮放,不只是把髒資料刪掉。
- 這一步會直接影響後面的特徵工程和模型表現。
- 不同模型對前處理敏感度不同,但完全不處理通常風險更大。
情境判斷
Q1:資料有缺值、格式亂七八糟,先做什麼? → 先做資料前處理,整理到模型能接受的樣子。 Q2:前處理做好後就不用再看資料了嗎? → 不是,資料品質還是要持續檢查,因為新資料可能再次變亂。
相關術語
常見問題
為什麼需要資料前處理?
原始資料通常包含缺失值、異常值、不一致的格式以及不相關的資訊,這些都會影響模型的效能。資料前處理可以將原始資料轉換成乾淨、一致且適合模型訓練的格式,從而提高模型的準確性和效率。
有哪些常用的資料前處理方法?
常用的資料前處理方法包括資料清理(處理缺失值、異常值和重複值)、資料轉換(將資料轉換成適合模型訓練的格式)、資料縮放(將數值特徵縮放到相同的範圍內)、資料降維(減少資料的維度)和資料整合(將來自不同來源的資料整合到一起)。
如何評估資料前處理的效果?
可以使用交叉驗證或獨立測試集等方法來評估資料前處理的效果。如果資料前處理確實提高了模型的效能,則說明其是有效的。如果資料前處理反而降低了模型的效能,則需要重新評估和調整前處理方法。