樸素貝氏(Naive Bayes)是什麼?

樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

樸素貝氏(Naive Bayes)是什麼? 機器學習自然語言處理

你有沒有想過,很多分類問題其實可以先用很簡單的機率想法快速判斷? 你可以把它想成把每個線索都先單獨看,再把這些線索的機率乘起來,快速猜是哪一類。 它的「樸素」在於假設特徵彼此獨立,雖然不完美,但在很多文字分類任務裡很管用。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。

容易混淆

樸素貝氏 vs 貝氏定理 樸素貝氏:是拿來做分類的模型 貝氏定理:是機率更新的數學公式 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

樸素貝氏 vs 邏輯迴歸 樸素貝氏:偏生成式、靠條件獨立 邏輯迴歸:偏判別式、直接學邊界 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

特徵先假設獨立,再用機率選類別。

實際案例

垃圾郵件 看到「免費」「抽獎」「立即點擊」這些詞,系統用機率快速判斷像不像垃圾信。

情緒分類 把一句話裡的正負面詞分開看,再估計整句比較像正面還是負面。

算法與應用

樸素貝氏本質上是在比較各類別的後驗機率。 雖然獨立假設常常不是真的,但它讓計算很省,表現也常出乎意料地穩。 在高維稀疏文字特徵上,它常比想像中更有競爭力。

情境判斷

Q1(直覺題): 你要做一個超快的垃圾郵件分類器,詞袋特徵很多,最像哪種模型?

樸素貝氏,因為它計算快而且很適合文字分類。

Q2(判斷題): 如果兩個特徵其實高度相關,但你還硬把它們當獨立,會怎樣?

機率可能被重複計算,分類分數會失真。

常見問題

它為什麼叫樸素?

因為它對特徵獨立做了很強的簡化假設。

一定比複雜模型差嗎?

不一定,資料少或特徵稀疏時,它常很有競爭力。

它能處理連續值嗎?

可以,常見作法是把連續值建成高斯版本。