iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

金融報酬率資料非常態，該用哪種模型？

原題 33

某金融機構的量化分析師在建立資產風險評估模型時，發現報酬率資料分佈明顯非對稱，且出現多次極端損失事件，使得傳統假設常態分佈的模型無法準確反映真實風險。若希望在不依賴常態分佈假設的前提下，採取更能捕捉資料極端情況的建模策略，下列哪一種方法最為合適？

白話

一位金融量化分析師發現，資產的報酬率資料分佈明顯偏斜（非對稱），而且多次出現極端損失。傳統用常態分佈假設的模型對這類資料會低估風險。

問你：不假設常態分佈、又能捕捉尾部極端風險的建模策略，哪一種最合適？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

資料非常態、有極端尾部，要用分位數迴歸模型（Quantile Regression Model），它不假設分佈形狀，直接對極端分位（如第 5、第 1 百分位）建模，最能捕捉尾部風險。

02　情境

先感受問題：平均值說沒事，但極端損失一來就崩

「遠勝資產管理」的量化分析師阿哲，在評估某股票型基金的風險時，把過去 10 年的日報酬率拿出來看。

大部分的日子，報酬率在 ±2% 之間波動，平均是 +0.03%，看起來很正常。但 10 年裡有幾次，一天就跌了 15%、18%，金融海嘯那年甚至有一天 -25%。

阿哲用傳統模型（假設常態分佈）算出來的「最大可能損失」只有 4%，但現實一來就是 20% 的坑。問題在哪？常態分佈的「尾巴」太薄了，對極端事件的機率嚴重低估。

他需要一個方法，可以直接對「最差的 5% 情境」、「最差的 1% 情境」建模，而不是只看平均值附近的波動。

03　對照

依賴常態假設的方法，遇到肥尾分佈就失準

平均值和標準差假設對稱分佈：±2σ 涵蓋 95% 的常態分佈，但若分佈右偏或左偏，這個區間嚴重低估尾端損失機率。
線性迴歸假設殘差常態：OLS 迴歸的假設之一是誤差項符合常態分佈，對非常態資料估計量仍有偏。
裁剪掉極端值讓問題消失：把 ±3σ 以外的資料刪掉，等於主動消除「最需要被評估的風險資訊」，在風險管理上是最危險的做法。
VaR（風險值）用常態近似算：傳統 VaR 假設常態，對尾部事件的機率估計系統性偏低，2008 年金融危機後，監管機構已要求補充 CVaR（條件風險值）。
只建單一模型而非分段建模：用一個模型涵蓋所有條件（平均情況和極端情況），極端區段的預測精度永遠被平均段稀釋。

04　解法

分位數迴歸直接建模極端尾部

阿哲改用分位數迴歸（Quantile Regression）。這個方法最核心的特點：它估計的不是條件平均值，而是條件分位數。

他可以問模型：「給定市場波動率這麼高，報酬率最差的 5% 情境（第 5 百分位）是多少？」模型直接給出那條線，不需要假設資料是常態分佈。

分位數迴歸的好處：

不假設分佈形狀（無母數假設），對偏斜、厚尾資料照樣準確
可同時建多條分位線（第 1%、第 5%、第 10%、第 90%……），同時看悲觀和樂觀情境
聚焦尾部分位（Tail Quantiles）時，直接對「最壞情況」建模，是風險管理的最直接工具

這就是選項 D 講的：採用分位數迴歸模型（Quantile Regression Model），聚焦於尾部分位（Tail Quantiles）以評估極端風險。

技術版：分位數迴歸的概念位置

分位數迴歸（Quantile Regression）是統計建模的一個分支，由 Roger Koenker 和 Gilbert Bassett 在 1978 年提出。它的目標是估計 Y 的條件分位數，而非條件期望值（即傳統 OLS 迴歸估計的東西）。

在金融風險管理中，常用的尾部分位：

Q(0.01)：第 1 百分位，解讀為「在給定條件下，最差的 1% 情境，損失至少是多少」
Q(0.05)：第 5 百分位，常被用作 VaR（Value at Risk, 風險值）的計算基礎
Q(0.95)、Q(0.99)：右尾，評估極端獲利情境

與傳統迴歸的差異：OLS 最小化殘差平方和（MSE），對異常值敏感；分位數迴歸最小化加權絕對偏差，對異常值更穩健，且不需要常態假設。

相關概念：CVaR（Conditional Value at Risk，條件風險值）也是尾部風險的評估指標，計算「超過 VaR 門檻後的平均損失」，和分位數迴歸搭配使用在風險管理中已成主流。

05　陷阱

為什麼其他選項是錯的

A採用線性迴歸模型，以常態分佈殘差為基礎進行推估

字面在說什麼

用 OLS 線性迴歸，假設誤差項符合常態分佈。

為什麼不對

題目明確說「傳統假設常態分佈的模型無法準確反映真實風險」，線性迴歸正是依賴常態假設的代表性方法。它只估計條件期望值（平均值），完全無法量化尾部的極端損失風險。

誰會選錯

看到「迴歸模型」就覺得可以用的人，沒注意到 OLS 的假設本身就是題目要求「不依賴的」那個東西。

B使用平均數與標準差估計波動範圍

字面在說什麼

計算 mean ± 2σ 或 mean ± 3σ 當作正常波動範圍。

為什麼不對

平均數和標準差描述的是分佈的「中心」和「對稱展開」，對偏斜（非對稱）分佈本來就失準。更關鍵的是，標準差只描述平均離散程度，完全沒有給出「尾端」到底有多嚴重的資訊。

誰會選錯

把「看分佈」跟「算平均和標準差」畫上等號的人，或認為統計描述等同於風險建模的人。

C將資料裁剪至 ±3σ 範圍內以排除異常值影響

字面在說什麼

把超出 ±3σ 的極端值當作「雜訊」刪掉，讓資料更符合常態假設。

為什麼不對

在風險管理領域，極端損失事件（黑天鵝）正是最需要被建模的資訊。把它刪掉等於「眼不見為淨」，模型看起來精準但完全無法預警最大風險。這是風險管理中最嚴重的模型錯誤之一。

誰會選錯

在資料清理時學到「移除離群值可改善模型」，但誤把這個技巧套用到風險評估任務的人。離群值在預測任務可以移除，在風險任務卻是核心資訊。

06　變形

同個考點下次怎麼變形

變形 1

什麼是 VaR（Value at Risk），和分位數迴歸有什麼關係？

直覺

金融風險常聽到 VaR，它和本題的方法有關嗎？

答案

VaR（風險值）定義為：在給定信心水準（如 95%）下，某個時間段內最大可能損失。本質上就是對損失分佈的某個低分位數（如第 5 百分位）的估計。分位數迴歸正是計算條件 VaR 的工具之一。

變形 2

「肥尾分佈（Fat-Tailed Distribution）」是什麼？常見的例子有哪些？

直覺

金融資料常聽到「肥尾」，和常態分佈有什麼不同？

答案

肥尾分佈的尾部機率遠高於常態分佈，意味著極端事件比預期更常發生。常見例子：t 分佈（自由度小時）、帕累托分佈、對數常態分佈。金融報酬率、地震規模、社群媒體流量都具有肥尾特性。

變形 3

分位數迴歸和 OLS 迴歸在應用場景上有什麼核心差異？

直覺

兩種都是迴歸，什麼時候選哪個？

答案

OLS 估計條件均值，適合「預測平均情況」；分位數迴歸估計條件分位數，適合「預測極端情況或感興趣的特定百分位」。當目標是風險管理、公平性分析或非常態資料建模時，用分位數迴歸。

變形 4

為什麼金融報酬率資料常常是非常態的？

直覺

教科書用常態假設，但實際金融資料為什麼不符合？

答案

金融市場受到恐慌情緒、羊群效應、槓桿機制影響，極端事件（崩盤、閃崩）的發生頻率遠高於常態分佈預測。統計上表現為負偏（左偏）和超峰度（Excess Kurtosis），即尾部比常態分佈「胖」。

變形 5

如果不用分位數迴歸，還有哪些方法可以處理非常態資料的極端風險？

直覺

分位數迴歸是一種，還有其他選項嗎？

答案

歷史模擬法（Historical Simulation）：直接用過去真實資料的百分位數，不假設任何分佈。極端值理論（EVT）：專門建模尾部分佈。蒙地卡羅模擬：模擬大量情境並取極端百分位。這些方法都不依賴常態假設。

07　延伸

想再往下看，這 5 個

線性迴歸（Linear Regression）假設常態殘差、估計條件均值的迴歸方法，對非對稱肥尾資料不適用。
常態分佈（Normal Distribution）金融建模的傳統假設，但因尾部過薄而低估極端損失機率。
異常偵測（Anomaly Detection）識別偏離常態模式的極端事件，是風險管理系統的重要組成部分。
描述性統計（Descriptive Statistics）平均數、標準差是描述性統計的核心，但對非常態資料需搭配分位數一起看。
預測性分析（Predictive Analytics）分位數迴歸是預測性分析在風險情境中的應用，聚焦極端條件下的預測。