你有沒有想過,很多分類問題其實可以先用很簡單的機率想法快速判斷? 你可以把它想成把每個線索都先單獨看,再把這些線索的機率乘起來,快速猜是哪一類。 它的「樸素」在於假設特徵彼此獨立,雖然不完美,但在很多文字分類任務裡很管用。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。
容易混淆
樸素貝氏 vs 貝氏定理 樸素貝氏:是拿來做分類的模型 貝氏定理:是機率更新的數學公式 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
樸素貝氏 vs 邏輯迴歸 樸素貝氏:偏生成式、靠條件獨立 邏輯迴歸:偏判別式、直接學邊界 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
記住這句就好
特徵先假設獨立,再用機率選類別。
實際案例
垃圾郵件 看到「免費」「抽獎」「立即點擊」這些詞,系統用機率快速判斷像不像垃圾信。
情緒分類 把一句話裡的正負面詞分開看,再估計整句比較像正面還是負面。
算法與應用
樸素貝氏本質上是在比較各類別的後驗機率。 雖然獨立假設常常不是真的,但它讓計算很省,表現也常出乎意料地穩。 在高維稀疏文字特徵上,它常比想像中更有競爭力。
情境判斷
Q1(直覺題): 你要做一個超快的垃圾郵件分類器,詞袋特徵很多,最像哪種模型?
樸素貝氏,因為它計算快而且很適合文字分類。
Q2(判斷題): 如果兩個特徵其實高度相關,但你還硬把它們當獨立,會怎樣?
機率可能被重複計算,分類分數會失真。
常見問題
它為什麼叫樸素?
因為它對特徵獨立做了很強的簡化假設。
一定比複雜模型差嗎?
不一定,資料少或特徵稀疏時,它常很有競爭力。
它能處理連續值嗎?
可以,常見作法是把連續值建成高斯版本。