iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

CDF 的數學定義是什麼？

原題 04

累積分佈函數（Cumulative Distribution Function, CDF）可用於描述隨機變數的機率分佈特性，其數學定義為下列何者？

白話

有一個叫做「累積分佈函數」（CDF，Cumulative Distribution Function）的東西，可以描述隨機變數的機率分佈。

問你：CDF 的數學定義是什麼？它等於 PDF 的哪種運算結果？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

CDF（累積分佈函數）= PDF（機率密度函數）的積分。CDF(x) 告訴你「隨機變數落在 x 以下的機率」，對連續型隨機變數就是把 PDF 從負無窮積到 x。

02　情境

先感受問題：考試成績低於 80 分的人占幾%

嘉誠補習班全體學員的考試成績服從常態分佈，平均 70 分，標準差 10 分。

班主任想回答一個問題：「全體學員中，有幾成的人成績低於 80 分？」

直方圖（PDF）告訴你「各分數段有多少人」，但不能直接回答「低於某個值的比例」。

CDF 就是用來回答這種問題的工具：CDF(80) = 0.84，代表有 84% 的人成績低於 80 分。

CDF 的圖形是一條從左下角到右上角單調遞增的曲線，左端趨近 0，右端趨近 1。

03　對照

只有 PDF 沒有 CDF 時，回答「低於某值的機率」有多麻煩

每次要重新積分：PDF 是「每個點的密度」，要知道「低於 80 分」的機率，必須手動從 -∞ 積到 80，每換一個門檻值就要重算。
比較不同門檻值很費力：想比較「低於 70」vs「低於 80」vs「低於 90」的機率，要分別積三次。
計算區間機率需要兩步驟：「60 到 80 分之間的機率」= P(X ≤ 80) - P(X ≤ 60)，沒有 CDF 的話要算兩個積分再相減。
不直觀：PDF 的 y 軸是「密度」，不是機率，值可以大於 1，初學者容易混淆。
無法直接讀出百分位：第 90 百分位是多少分？PDF 沒辦法直接告訴你，要靠 CDF 的逆函數（Quantile Function）。

04　解法

CDF 就是把 PDF 從左端累積加總到某個點

對連續型隨機變數，CDF 的定義是：

F(x) = ∫ from -∞ to x of f(t) dt

白話翻譯：從最小的可能值一路累加 PDF，加到 x 這個點為止。

f(t)：PDF，描述「每個點附近的機率密度」
F(x)：CDF，描述「值不超過 x 的累積機率」
積分：把 PDF 面積從左端累積到 x

性質：

F(x) 的範圍是 [0, 1]
F(-∞) = 0，F(+∞) = 1
F(x) 是單調非遞減函數

這就是選項 B 講的：機率密度函數（Probability Density Function, PDF）的積分。

技術版：PDF 與 CDF 的關係及實務應用

CDF 與 PDF 是一對互逆的關係：

CDF = PDF 的積分：F(x) = ∫ f(t)dt
PDF = CDF 的微分：f(x) = F'(x)

對離散型隨機變數，積分換成總和：F(x) = Σ P(X = k)，其中 k ≤ x

注意選項 C「離散總和」的問題：雖然離散情況確實用總和，但「連續型 CDF 的定義」是積分，而題目問的是 CDF 的數學定義（通常指連續型）。考試語境下，標準答案是積分，而不是限定離散情況的總和。

Python 實作（以常態分佈為例）：

from scipy import stats
import numpy as np

# 常態分佈 N(70, 10²)
dist = stats.norm(loc=70, scale=10)

# CDF：成績低於 80 的機率
print(dist.cdf(80))   # 約 0.8413（84%）

# 逆 CDF（Quantile Function）：第 90 百分位是多少分
print(dist.ppf(0.90))  # 約 82.8 分

CDF 在機器學習中的應用：

特徵分位數轉換：QuantileTransformer 把特徵的分佈用 CDF 轉換成均勻分佈，讓離群值影響降低。
假設檢定：p-value 就是基於 CDF 計算「在虛無假設下，觀察值這麼極端的機率」。
ROC 曲線：True Positive Rate 和 False Positive Rate 本質上是兩個不同分佈的 CDF 值的比較。

05　陷阱

為什麼其他選項是錯的

A機率密度函數（PDF）的平均值

字面在說什麼

把 PDF 的所有值取平均，這個平均就是 CDF。

為什麼不對

PDF 的「平均值」不是一個有意義的概念（PDF 的面積積分等於 1，平均密度是 1 除以定義域，跟 CDF 完全不同）。CDF 是累積到某個點的面積，不是平均密度。

誰會選錯

把「平均」當成萬用詞，以為「對 PDF 取平均」就能得到累積機率的人。

C機率密度函數（PDF）的離散總和

字面在說什麼

把 PDF 的各個離散值加總，就是 CDF。

為什麼不對

離散情況下確實是用「加總」（不是積分），但題目問的是 CDF 的數學定義，標準定義是針對連續型隨機變數的積分。選項 C 說的是「離散總和」，這個說法混淆了連續與離散的場景，且即使是離散情況，也是 PMF（機率質量函數）而不是 PDF 的總和。

誰會選錯

記得離散情況下要用「加總」而不是積分，就選了這個選項，但忘了連續型的標準定義是積分。

D機率密度函數（PDF）的標準差

字面在說什麼

CDF 等於 PDF 的標準差。

為什麼不對

標準差衡量的是隨機變數本身的分散程度，是一個純量（單一數字）。CDF 是一個函數，對每個 x 值都有對應的累積機率。兩者完全是不同的東西，概念上毫無關聯。

誰會選錯

不熟悉 CDF 定義，看到選項裡有統計量名稱就隨機猜的人。記住：標準差和均值是描述統計量，CDF 是一個機率函數。

06　變形

同個考點下次怎麼變形

變形 1

已知 F(a) = 0.3，F(b) = 0.7，P(a < X ≤ b) 是多少？

直覺

CDF 給兩個點的值，怎麼算區間機率？

答案

P(a < X ≤ b) = F(b) - F(a) = 0.7 - 0.3 = 0.4。CDF 的核心用法之一就是：區間機率 = 右端 CDF - 左端 CDF。

變形 2

PDF 跟 CDF 有什麼微積分關係？

直覺

知道 CDF 是 PDF 的積分，那反過來呢？

答案

CDF 對 x 微分就得到 PDF：f(x) = F'(x)。這是微積分基本定理的應用：積分和微分互逆。

變形 3

CDF 值可以大於 1 嗎？

直覺

PDF 的密度值可以大於 1，CDF 呢？

答案

不行。CDF 表示的是累積機率，機率的上限是 1。CDF(x) ∈ [0, 1]，永遠在這個範圍內。PDF 的密度值可以大於 1（因為它是密度不是機率），但 CDF 值不行。

變形 4

分位數（Quantile）跟 CDF 有什麼關係？

直覺

第 90 百分位、中位數，這些概念跟 CDF 怎麼連起來？

答案

分位數是 CDF 的逆函數：Q(p) = F⁻¹(p)。問「第 90 百分位是幾分」= 問「F(x) = 0.9 時 x 等於多少」。中位數 = Q(0.5) = F⁻¹(0.5)，也就是 CDF 等於 0.5 的那個點。

變形 5

為什麼說「CDF 是單調非遞減函數」？

直覺

CDF 只能往上不能往下？為什麼？

答案

因為 CDF(x) = P(X ≤ x)，這是「累積機率」。隨著 x 增大，納入的範圍只會更大不會更小，所以累積機率只增不減。PDF 可以在某個點密度很低（接近 0），但 CDF 在那段只是幾乎不增，不會下降。

07　延伸

想再往下看，這 5 個

機率分佈（Probability Distribution）CDF 和 PDF 都是描述機率分佈的工具，理解機率分佈是統計學的基礎。
常態分佈（Normal Distribution）CDF 最常見的應用場景，常態分佈的 CDF 就是 Z 分數表查的那個累積機率。
描述性統計（Descriptive Statistics）均值、標準差等統計量與 CDF 密切相關，例如 Z 分數需要搭配 CDF 才能換算百分位。
假設檢定（Hypothesis Testing）p-value 的計算本質上是計算在虛無假設的分佈下，觀察值超過門檻的 CDF 值。
ROC 曲線（ROC Curve）ROC 曲線的 TPR 和 FPR 本質上來自兩個分佈的 CDF 比較，理解 CDF 有助於理解 ROC。