CDF 的數學定義是什麼?
累積分佈函數(Cumulative Distribution Function, CDF)可用於描述隨機變數的機率分佈特性,其數學定義為下列何者?
有一個叫做「累積分佈函數」(CDF,Cumulative Distribution Function)的東西,可以描述隨機變數的機率分佈。
問你:CDF 的數學定義是什麼?它等於 PDF 的哪種運算結果?
一句話總結
CDF(累積分佈函數)= PDF(機率密度函數)的積分。CDF(x) 告訴你「隨機變數落在 x 以下的機率」,對連續型隨機變數就是把 PDF 從負無窮積到 x。
先感受問題:考試成績低於 80 分的人占幾%
嘉誠補習班全體學員的考試成績服從常態分佈,平均 70 分,標準差 10 分。
班主任想回答一個問題:「全體學員中,有幾成的人成績低於 80 分?」
直方圖(PDF)告訴你「各分數段有多少人」,但不能直接回答「低於某個值的比例」。
CDF 就是用來回答這種問題的工具:CDF(80) = 0.84,代表有 84% 的人成績低於 80 分。
CDF 的圖形是一條從左下角到右上角單調遞增的曲線,左端趨近 0,右端趨近 1。
只有 PDF 沒有 CDF 時,回答「低於某值的機率」有多麻煩
- 每次要重新積分:PDF 是「每個點的密度」,要知道「低於 80 分」的機率,必須手動從 -∞ 積到 80,每換一個門檻值就要重算。
- 比較不同門檻值很費力:想比較「低於 70」vs「低於 80」vs「低於 90」的機率,要分別積三次。
- 計算區間機率需要兩步驟:「60 到 80 分之間的機率」= P(X ≤ 80) - P(X ≤ 60),沒有 CDF 的話要算兩個積分再相減。
- 不直觀:PDF 的 y 軸是「密度」,不是機率,值可以大於 1,初學者容易混淆。
- 無法直接讀出百分位:第 90 百分位是多少分?PDF 沒辦法直接告訴你,要靠 CDF 的逆函數(Quantile Function)。
CDF 就是把 PDF 從左端累積加總到某個點
對連續型隨機變數,CDF 的定義是:
白話翻譯:從最小的可能值一路累加 PDF,加到 x 這個點為止。
- f(t):PDF,描述「每個點附近的機率密度」
- F(x):CDF,描述「值不超過 x 的累積機率」
- 積分:把 PDF 面積從左端累積到 x
性質:
- F(x) 的範圍是 [0, 1]
- F(-∞) = 0,F(+∞) = 1
- F(x) 是單調非遞減函數
這就是選項 B 講的:機率密度函數(Probability Density Function, PDF)的積分。
技術版:PDF 與 CDF 的關係及實務應用
CDF 與 PDF 是一對互逆的關係:
- CDF = PDF 的積分:F(x) = ∫ f(t)dt
- PDF = CDF 的微分:f(x) = F'(x)
對離散型隨機變數,積分換成總和:F(x) = Σ P(X = k),其中 k ≤ x
注意選項 C「離散總和」的問題:雖然離散情況確實用總和,但「連續型 CDF 的定義」是積分,而題目問的是 CDF 的數學定義(通常指連續型)。考試語境下,標準答案是積分,而不是限定離散情況的總和。
Python 實作(以常態分佈為例):
from scipy import stats
import numpy as np
# 常態分佈 N(70, 10²)
dist = stats.norm(loc=70, scale=10)
# CDF:成績低於 80 的機率
print(dist.cdf(80)) # 約 0.8413(84%)
# 逆 CDF(Quantile Function):第 90 百分位是多少分
print(dist.ppf(0.90)) # 約 82.8 分
CDF 在機器學習中的應用:
- 特徵分位數轉換:QuantileTransformer 把特徵的分佈用 CDF 轉換成均勻分佈,讓離群值影響降低。
- 假設檢定:p-value 就是基於 CDF 計算「在虛無假設下,觀察值這麼極端的機率」。
- ROC 曲線:True Positive Rate 和 False Positive Rate 本質上是兩個不同分佈的 CDF 值的比較。
為什麼其他選項是錯的
A機率密度函數(PDF)的平均值
把 PDF 的所有值取平均,這個平均就是 CDF。
PDF 的「平均值」不是一個有意義的概念(PDF 的面積積分等於 1,平均密度是 1 除以定義域,跟 CDF 完全不同)。CDF 是累積到某個點的面積,不是平均密度。
把「平均」當成萬用詞,以為「對 PDF 取平均」就能得到累積機率的人。
C機率密度函數(PDF)的離散總和
把 PDF 的各個離散值加總,就是 CDF。
離散情況下確實是用「加總」(不是積分),但題目問的是 CDF 的數學定義,標準定義是針對連續型隨機變數的積分。選項 C 說的是「離散總和」,這個說法混淆了連續與離散的場景,且即使是離散情況,也是 PMF(機率質量函數)而不是 PDF 的總和。
記得離散情況下要用「加總」而不是積分,就選了這個選項,但忘了連續型的標準定義是積分。
D機率密度函數(PDF)的標準差
CDF 等於 PDF 的標準差。
標準差衡量的是隨機變數本身的分散程度,是一個純量(單一數字)。CDF 是一個函數,對每個 x 值都有對應的累積機率。兩者完全是不同的東西,概念上毫無關聯。
不熟悉 CDF 定義,看到選項裡有統計量名稱就隨機猜的人。記住:標準差和均值是描述統計量,CDF 是一個機率函數。
同個考點下次怎麼變形
已知 F(a) = 0.3,F(b) = 0.7,P(a < X ≤ b) 是多少?
CDF 給兩個點的值,怎麼算區間機率?
P(a < X ≤ b) = F(b) - F(a) = 0.7 - 0.3 = 0.4。CDF 的核心用法之一就是:區間機率 = 右端 CDF - 左端 CDF。
PDF 跟 CDF 有什麼微積分關係?
知道 CDF 是 PDF 的積分,那反過來呢?
CDF 對 x 微分就得到 PDF:f(x) = F'(x)。這是微積分基本定理的應用:積分和微分互逆。
CDF 值可以大於 1 嗎?
PDF 的密度值可以大於 1,CDF 呢?
不行。CDF 表示的是累積機率,機率的上限是 1。CDF(x) ∈ [0, 1],永遠在這個範圍內。PDF 的密度值可以大於 1(因為它是密度不是機率),但 CDF 值不行。
分位數(Quantile)跟 CDF 有什麼關係?
第 90 百分位、中位數,這些概念跟 CDF 怎麼連起來?
分位數是 CDF 的逆函數:Q(p) = F⁻¹(p)。問「第 90 百分位是幾分」= 問「F(x) = 0.9 時 x 等於多少」。中位數 = Q(0.5) = F⁻¹(0.5),也就是 CDF 等於 0.5 的那個點。
為什麼說「CDF 是單調非遞減函數」?
CDF 只能往上不能往下?為什麼?
因為 CDF(x) = P(X ≤ x),這是「累積機率」。隨著 x 增大,納入的範圍只會更大不會更小,所以累積機率只增不減。PDF 可以在某個點密度很低(接近 0),但 CDF 在那段只是幾乎不增,不會下降。
想再往下看,這 5 個
- 機率分佈(Probability Distribution)CDF 和 PDF 都是描述機率分佈的工具,理解機率分佈是統計學的基礎。
- 常態分佈(Normal Distribution)CDF 最常見的應用場景,常態分佈的 CDF 就是 Z 分數表查的那個累積機率。
- 描述性統計(Descriptive Statistics)均值、標準差等統計量與 CDF 密切相關,例如 Z 分數需要搭配 CDF 才能換算百分位。
- 假設檢定(Hypothesis Testing)p-value 的計算本質上是計算在虛無假設的分佈下,觀察值超過門檻的 CDF 值。
- ROC 曲線(ROC Curve)ROC 曲線的 TPR 和 FPR 本質上來自兩個分佈的 CDF 比較,理解 CDF 有助於理解 ROC。