---
title: "最大似然估計（Maximum Likelihood Estimation）"
slug: maximum-likelihood-estimation
language: zh-TW
source: https://aiterms.tw/terms/maximum-likelihood-estimation
updated_at: 2026-04-29
tags: [統計方法, 機器學習, 模型訓練, 最佳化, 數學基礎, iPAS中級]
ipas_term: false
---

# 最大似然估計（Maximum Likelihood Estimation）

> **你有沒有遇過一堆資料擺在面前，卻不知道哪個參數最合理？**
>
> 你可以把最大似然估計想成，反過來問「如果這個參數是真的，現在看到的資料有多像真的會長這樣」。
> 它重要在於，很多統計模型、分類器和生成模型，最後都會變成在找讓資料最合理的參數。
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆

> **最大似然估計 vs 貝氏估計**
>
> 最大似然估計：只看目前資料，找讓資料最可能出現的參數。
> 貝氏估計：把資料和先驗知識一起考慮，算出後驗分佈。
> 最關鍵的區別：前者不放先驗，後者會放先驗。

> **最大似然估計 vs 最小二乘法**
>
> 最大似然估計：最大化資料出現的機率。
> 最小二乘法：最小化預測值和真實值的平方誤差。
> 最關鍵的區別：前者是機率觀點，後者是誤差觀點。

### 記住這句就好

> 找出讓「目前這批資料最像真的」那組參數。

### 實際案例

> **硬幣偏硬還是偏軟**
>
> 你丟了 20 次硬幣，正面出現 15 次，最大似然估計會找出一個最能解釋這組結果的正面機率，而不是先預設它一定公平。

> **垃圾郵件分類**
>
> 模型觀察哪些單字常出現在垃圾信裡，調整參數讓這些特徵組合下的資料機率最高，最後得到分類規則。

### 算法與應用

> 做法通常是先寫出似然函數，再把它轉成比較好算的對數似然。
> 最佳解不一定有漂亮封閉解，所以常搭配梯度下降或數值最佳化。
> 它很常和機率分佈、損失函數、模型訓練綁在一起。

### 情境判斷

> **Q1（情境題）：** 你只有少量資料，還能用最大似然估計嗎？
>
> → 可以，但要小心不穩定。資料少時估計會比較抖，這時常會搭配正則化、貝氏方法或更多先驗資訊。

> **Q2（情境題）：** 如果模型很複雜，最大似然估計一定會找到唯一答案嗎？
>
> → 不一定。資料不足或模型太彈性時，可能出現多個局部最佳解，甚至估計不穩定。

### 常見問題

> **Q：最大似然估計一定要假設資料分佈嗎？**
>
> 要。你得先指定一個機率模型，例如常態分佈、伯努利分佈或多項式分佈，才談得上似然。

> **Q：它和最大後驗估計有什麼不同？**
>
> 最大後驗估計會把先驗加進來，最大似然估計只看觀測資料。兩者在沒有先驗或先驗很弱時，結果可能很接近。

> **Q：為什麼常改寫成對數似然？**
>
> 因為乘積太難算也容易下溢，改成對數後會把乘法變加法，計算更穩定。

### 相關術語

> - **機率分佈**：先知道資料長什麼分布，才談得上似然。
> - **貝氏定理**：想理解先驗和後驗時最需要。
> - **損失函數**：最大似然常會被寫成要最小化的形式。
> - **目標函數**：把似然放進訓練目標後，模型才會開始學。
> - **均方誤差**：很多回歸模型最後會和似然假設對上。

---

來源：https://aiterms.tw/terms/maximum-likelihood-estimation
快查頁：https://aiterms.tw/terms/maximum-likelihood-estimation
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-maximum-likelihood-estimation