樸素貝氏 是什麼?

Naive Bayes — 樸素貝氏 的完整解釋

樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。

容易混淆

樸素貝氏 vs 貝氏定理 樸素貝氏:是拿來做分類的模型 貝氏定理:是機率更新的數學公式 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

樸素貝氏 vs 邏輯迴歸 樸素貝氏:偏生成式、靠條件獨立 邏輯迴歸:偏判別式、直接學邊界 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

特徵先假設獨立,再用機率選類別。

實際案例

垃圾郵件 看到「免費」「抽獎」「立即點擊」這些詞,系統用機率快速判斷像不像垃圾信。

情緒分類 把一句話裡的正負面詞分開看,再估計整句比較像正面還是負面。

算法與應用

樸素貝氏本質上是在比較各類別的後驗機率。 雖然獨立假設常常不是真的,但它讓計算很省,表現也常出乎意料地穩。 在高維稀疏文字特徵上,它常比想像中更有競爭力。

情境判斷

Q1(直覺題):你要做一個超快的垃圾郵件分類器,詞袋特徵很多,最像哪種模型? → 樸素貝氏,因為它計算快而且很適合文字分類。

Q2(判斷題):如果兩個特徵其實高度相關,但你還硬把它們當獨立,會怎樣? → 機率可能被重複計算,分類分數會失真。

相關術語

常見問題

它為什麼叫樸素?

因為它對特徵獨立做了很強的簡化假設。

一定比複雜模型差嗎?

不一定,資料少或特徵稀疏時,它常很有競爭力。

它能處理連續值嗎?

可以,常見作法是把連續值建成高斯版本。