iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用

CDF 的數學定義是什麼?

原題 04

累積分佈函數(Cumulative Distribution Function, CDF)可用於描述隨機變數的機率分佈特性,其數學定義為下列何者?

白話

有一個叫做「累積分佈函數」(CDF,Cumulative Distribution Function)的東西,可以描述隨機變數的機率分佈。

問你:CDF 的數學定義是什麼?它等於 PDF 的哪種運算結果?

點選你的答案。

01 總結

一句話總結

CDF(累積分佈函數)= PDF(機率密度函數)的積分。CDF(x) 告訴你「隨機變數落在 x 以下的機率」,對連續型隨機變數就是把 PDF 從負無窮積到 x。

02 情境

先感受問題:考試成績低於 80 分的人占幾%

嘉誠補習班全體學員的考試成績服從常態分佈,平均 70 分,標準差 10 分。

班主任想回答一個問題:「全體學員中,有幾成的人成績低於 80 分?」

直方圖(PDF)告訴你「各分數段有多少人」,但不能直接回答「低於某個值的比例」。

CDF 就是用來回答這種問題的工具:CDF(80) = 0.84,代表有 84% 的人成績低於 80 分。

CDF 的圖形是一條從左下角到右上角單調遞增的曲線,左端趨近 0,右端趨近 1。

03 對照

只有 PDF 沒有 CDF 時,回答「低於某值的機率」有多麻煩

  1. 每次要重新積分:PDF 是「每個點的密度」,要知道「低於 80 分」的機率,必須手動從 -∞ 積到 80,每換一個門檻值就要重算。
  2. 比較不同門檻值很費力:想比較「低於 70」vs「低於 80」vs「低於 90」的機率,要分別積三次。
  3. 計算區間機率需要兩步驟:「60 到 80 分之間的機率」= P(X ≤ 80) - P(X ≤ 60),沒有 CDF 的話要算兩個積分再相減。
  4. 不直觀:PDF 的 y 軸是「密度」,不是機率,值可以大於 1,初學者容易混淆。
  5. 無法直接讀出百分位:第 90 百分位是多少分?PDF 沒辦法直接告訴你,要靠 CDF 的逆函數(Quantile Function)。
04 解法

CDF 就是把 PDF 從左端累積加總到某個點

對連續型隨機變數,CDF 的定義是:

F(x) = ∫ from -∞ to x of f(t) dt

白話翻譯:從最小的可能值一路累加 PDF,加到 x 這個點為止。

  • f(t):PDF,描述「每個點附近的機率密度」
  • F(x):CDF,描述「值不超過 x 的累積機率」
  • 積分:把 PDF 面積從左端累積到 x

性質:

  • F(x) 的範圍是 [0, 1]
  • F(-∞) = 0,F(+∞) = 1
  • F(x) 是單調非遞減函數

這就是選項 B 講的:機率密度函數(Probability Density Function, PDF)的積分

技術版:PDF 與 CDF 的關係及實務應用

CDF 與 PDF 是一對互逆的關係:

  • CDF = PDF 的積分:F(x) = ∫ f(t)dt
  • PDF = CDF 的微分:f(x) = F'(x)

對離散型隨機變數,積分換成總和:F(x) = Σ P(X = k),其中 k ≤ x

注意選項 C「離散總和」的問題:雖然離散情況確實用總和,但「連續型 CDF 的定義」是積分,而題目問的是 CDF 的數學定義(通常指連續型)。考試語境下,標準答案是積分,而不是限定離散情況的總和。

Python 實作(以常態分佈為例):

from scipy import stats
import numpy as np

# 常態分佈 N(70, 10²)
dist = stats.norm(loc=70, scale=10)

# CDF:成績低於 80 的機率
print(dist.cdf(80))   # 約 0.8413(84%)

# 逆 CDF(Quantile Function):第 90 百分位是多少分
print(dist.ppf(0.90))  # 約 82.8 分

CDF 在機器學習中的應用:

  1. 特徵分位數轉換:QuantileTransformer 把特徵的分佈用 CDF 轉換成均勻分佈,讓離群值影響降低。
  2. 假設檢定:p-value 就是基於 CDF 計算「在虛無假設下,觀察值這麼極端的機率」。
  3. ROC 曲線:True Positive Rate 和 False Positive Rate 本質上是兩個不同分佈的 CDF 值的比較。
05 陷阱

為什麼其他選項是錯的

A機率密度函數(PDF)的平均值

字面在說什麼

把 PDF 的所有值取平均,這個平均就是 CDF。

為什麼不對

PDF 的「平均值」不是一個有意義的概念(PDF 的面積積分等於 1,平均密度是 1 除以定義域,跟 CDF 完全不同)。CDF 是累積到某個點的面積,不是平均密度。

誰會選錯

把「平均」當成萬用詞,以為「對 PDF 取平均」就能得到累積機率的人。

C機率密度函數(PDF)的離散總和

字面在說什麼

把 PDF 的各個離散值加總,就是 CDF。

為什麼不對

離散情況下確實是用「加總」(不是積分),但題目問的是 CDF 的數學定義,標準定義是針對連續型隨機變數的積分。選項 C 說的是「離散總和」,這個說法混淆了連續與離散的場景,且即使是離散情況,也是 PMF(機率質量函數)而不是 PDF 的總和。

誰會選錯

記得離散情況下要用「加總」而不是積分,就選了這個選項,但忘了連續型的標準定義是積分。

D機率密度函數(PDF)的標準差

字面在說什麼

CDF 等於 PDF 的標準差。

為什麼不對

標準差衡量的是隨機變數本身的分散程度,是一個純量(單一數字)。CDF 是一個函數,對每個 x 值都有對應的累積機率。兩者完全是不同的東西,概念上毫無關聯。

誰會選錯

不熟悉 CDF 定義,看到選項裡有統計量名稱就隨機猜的人。記住:標準差和均值是描述統計量,CDF 是一個機率函數。

06 變形

同個考點下次怎麼變形

變形 1

已知 F(a) = 0.3,F(b) = 0.7,P(a < X ≤ b) 是多少?

直覺

CDF 給兩個點的值,怎麼算區間機率?

答案

P(a < X ≤ b) = F(b) - F(a) = 0.7 - 0.3 = 0.4。CDF 的核心用法之一就是:區間機率 = 右端 CDF - 左端 CDF。

變形 2

PDF 跟 CDF 有什麼微積分關係?

直覺

知道 CDF 是 PDF 的積分,那反過來呢?

答案

CDF 對 x 微分就得到 PDF:f(x) = F'(x)。這是微積分基本定理的應用:積分和微分互逆。

變形 3

CDF 值可以大於 1 嗎?

直覺

PDF 的密度值可以大於 1,CDF 呢?

答案

不行。CDF 表示的是累積機率,機率的上限是 1。CDF(x) ∈ [0, 1],永遠在這個範圍內。PDF 的密度值可以大於 1(因為它是密度不是機率),但 CDF 值不行。

變形 4

分位數(Quantile)跟 CDF 有什麼關係?

直覺

第 90 百分位、中位數,這些概念跟 CDF 怎麼連起來?

答案

分位數是 CDF 的逆函數:Q(p) = F⁻¹(p)。問「第 90 百分位是幾分」= 問「F(x) = 0.9 時 x 等於多少」。中位數 = Q(0.5) = F⁻¹(0.5),也就是 CDF 等於 0.5 的那個點。

變形 5

為什麼說「CDF 是單調非遞減函數」?

直覺

CDF 只能往上不能往下?為什麼?

答案

因為 CDF(x) = P(X ≤ x),這是「累積機率」。隨著 x 增大,納入的範圍只會更大不會更小,所以累積機率只增不減。PDF 可以在某個點密度很低(接近 0),但 CDF 在那段只是幾乎不增,不會下降。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目二 大數據處理分析與應用 第 4 題

查看官方原文 PDF