標籤編碼 是什麼?

Label Encoding — 標籤編碼 的完整解釋

標籤編碼是將類別型資料轉換為整數,以便機器學習模型處理,但需注意可能產生不必要的順序關係

容易混淆

One-Hot Encoding Label Encoding 是一欄變一個數字,One-Hot 是一個類別變一欄。

Ordinal Encoding Ordinal Encoding 真的保留順序,Label Encoding 不一定有順序意義。

記住這句就好

把類別變整數,但別亂把數字當大小。

實際案例

樹模型前處理 決策樹有時能接受編碼後的整數,但要確認模型不會把數字大小誤解成順序。

目標標籤轉換 把 cat、dog、bird 變成 0、1、2,方便分類模型讀取。

算法與應用

Label Encoding 適合目標變數或樹模型,但對線性模型和距離型模型要小心,因為數字大小可能被誤讀成排序。若類別之間沒有順序,One-Hot 常更安全。

情境判斷

Q1(直覺題): 如果你現在遇到一個 樹模型前處理 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 Ordinal Encoding 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

相關術語

常見問題

標籤編碼 最容易跟 One-Hot Encoding 混淆嗎?

Label Encoding 是一欄變一個數字,One-Hot 是一個類別變一欄。

什麼情況會用到 標籤編碼?

你可以把它想成替每個類別發一個號碼,但號碼本身不代表大小或順序。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

Ordinal Encoding 真的保留順序,Label Encoding 不一定有順序意義。