你有沒有遇過一堆資料擺在面前,卻不知道哪個參數最合理?
你可以把最大似然估計想成,反過來問「如果這個參數是真的,現在看到的資料有多像真的會長這樣」。 它重要在於,很多統計模型、分類器和生成模型,最後都會變成在找讓資料最合理的參數。
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
最大似然估計 vs 貝氏估計
最大似然估計:只看目前資料,找讓資料最可能出現的參數。 貝氏估計:把資料和先驗知識一起考慮,算出後驗分佈。 最關鍵的區別:前者不放先驗,後者會放先驗。
最大似然估計 vs 最小二乘法
最大似然估計:最大化資料出現的機率。 最小二乘法:最小化預測值和真實值的平方誤差。 最關鍵的區別:前者是機率觀點,後者是誤差觀點。
記住這句就好
找出讓「目前這批資料最像真的」那組參數。
實際案例
硬幣偏硬還是偏軟
你丟了 20 次硬幣,正面出現 15 次,最大似然估計會找出一個最能解釋這組結果的正面機率,而不是先預設它一定公平。
垃圾郵件分類
模型觀察哪些單字常出現在垃圾信裡,調整參數讓這些特徵組合下的資料機率最高,最後得到分類規則。
算法與應用
做法通常是先寫出似然函數,再把它轉成比較好算的對數似然。 最佳解不一定有漂亮封閉解,所以常搭配梯度下降或數值最佳化。 它很常和機率分佈、損失函數、模型訓練綁在一起。
情境判斷
Q1(情境題): 你只有少量資料,還能用最大似然估計嗎?
→ 可以,但要小心不穩定。資料少時估計會比較抖,這時常會搭配正則化、貝氏方法或更多先驗資訊。
Q2(情境題): 如果模型很複雜,最大似然估計一定會找到唯一答案嗎?
→ 不一定。資料不足或模型太彈性時,可能出現多個局部最佳解,甚至估計不穩定。
常見問題
最大似然估計一定要假設資料分佈嗎?
要。你得先指定一個機率模型,例如常態分佈、伯努利分佈或多項式分佈,才談得上似然。
它和最大後驗估計有什麼不同?
最大後驗估計會把先驗加進來,最大似然估計只看觀測資料。兩者在沒有先驗或先驗很弱時,結果可能很接近。
為什麼常改寫成對數似然?
因為乘積太難算也容易下溢,改成對數後會把乘法變加法,計算更穩定。