樸素貝氏 是什麼?
Naive Bayes — 樸素貝氏 的完整解釋
樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。
容易混淆
樸素貝氏 vs 貝氏定理 樸素貝氏:是拿來做分類的模型 貝氏定理:是機率更新的數學公式 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
樸素貝氏 vs 邏輯迴歸 樸素貝氏:偏生成式、靠條件獨立 邏輯迴歸:偏判別式、直接學邊界 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
記住這句就好
特徵先假設獨立,再用機率選類別。
實際案例
垃圾郵件 看到「免費」「抽獎」「立即點擊」這些詞,系統用機率快速判斷像不像垃圾信。
情緒分類 把一句話裡的正負面詞分開看,再估計整句比較像正面還是負面。
算法與應用
樸素貝氏本質上是在比較各類別的後驗機率。 雖然獨立假設常常不是真的,但它讓計算很省,表現也常出乎意料地穩。 在高維稀疏文字特徵上,它常比想像中更有競爭力。
情境判斷
Q1(直覺題):你要做一個超快的垃圾郵件分類器,詞袋特徵很多,最像哪種模型? → 樸素貝氏,因為它計算快而且很適合文字分類。
Q2(判斷題):如果兩個特徵其實高度相關,但你還硬把它們當獨立,會怎樣? → 機率可能被重複計算,分類分數會失真。
相關術語
常見問題
它為什麼叫樸素?
因為它對特徵獨立做了很強的簡化假設。
一定比複雜模型差嗎?
不一定,資料少或特徵稀疏時,它常很有競爭力。
它能處理連續值嗎?
可以,常見作法是把連續值建成高斯版本。