iPAS AI 應用規劃師中級　科目一

哪個監控指標能最早偵測模型效能下滑？

原題 32

某企業已將 AI 模型部署於生產環境，為確保系統持續穩定運作，並能提前偵測模型效能可能衰退，技術團隊希望透過監控指標進行預警。下列哪一項監控指標最具預測效力，能提早發現模型效能下滑風險？

白話

某企業把 AI 模型部署到生產環境後，技術團隊想透過監控指標來提前預警，在模型效能真正衰退前就察覺到風險。

問你：哪一項監控指標最具預測效力，能提早發現模型效能下滑的風險？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

最能「提早預警」模型效能下滑的指標是：PSI（群體穩定性指數，Population Stability Index）。它直接量測「現在進來的資料跟當初訓練時的資料有多不一樣」，資料分佈一偏移，模型出包只是時間問題。

02　情境

先感受問題：模型沒改，結果就越來越爛

假設「全台信貸公司」用 AI 模型預測申貸者會不會違約，模型在 2023 年訓練完畢，當時準確率 92%。

2025 年初，公司發現實際違約率突然升高，但模型說大部分人是「低風險」。

工程師去查：

CPU 使用率：正常
API 回應時間：正常
模型沒有修改過

問題出在哪？

原來，2024 年升息環境改變，申貸族群的年齡分佈、負債比例都跟 2023 年訓練資料差很多。模型還用舊的眼光判斷新的人，當然越判越錯。

這叫做資料漂移（Data Drift）。如果有在監控 PSI，早在資料分佈開始偏移時就會拉警報，不用等到模型真的爛了才發現。

03　對照

只看系統指標，為什麼發現不了模型要壞

傳統 IT 監控只盯著伺服器健康度，不管模型「認知是否正確」。這樣有五個漏洞：

CPU/記憶體正常不代表模型正確：模型跑得順，但預測全部偏掉，伺服器毫無感覺。
API 回應快不代表答案對：0.02 秒吐出一個錯誤答案，延遲指標漂亮但結果是廢的。
等準確率下滑才知道，已經太晚：準確率是結果指標（lagging indicator），要等真實標籤回來才算得出來，通常滯後幾週到幾個月。
沒有標籤的生產環境根本算不了準確率：信貸模型預測「不會違約」，要等 6 個月後才知道對不對，哪能即時監控？
輸入資料改變了，無人察覺：資料管道看起來正常，但資料的統計特性悄悄漂移，沒人盯就沒人知道。

04　解法

PSI 怎麼當預警雷達

回到「全台信貸公司」。PSI 的邏輯很直白：把訓練時的資料分佈（基準）跟現在的線上資料分佈做比較，算出一個數字。

PSI 小於 0.1：分佈幾乎沒變，模型繼續用沒問題
PSI 介於 0.1 到 0.2：輕微漂移，需要留意
PSI 大於 0.2：顯著漂移，模型可能需要重新訓練

2024 年中，全台信貸公司的 PSI 從 0.05 升到 0.23。

這個數字告訴工程師：現在進來的申貸者特徵，跟訓練時的樣子已經差很多了。不用等模型爛掉才知道，現在就能啟動再訓練或人工審查機制。

CPU 和 API 延遲是「系統健不健康」，PSI 是「模型認知有沒有過期」。生產環境需要兩者都盯，但要預測效能下滑，PSI 是那個有預測力的指標。

這就是選項 D 講的：輸入特徵與訓練資料分佈差異的 PSI（Population Stability Index）指數。

技術版：PSI 公式與資料漂移監控實務

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼，但 PSI 有具體公式值得理解。

PSI 公式：

PSI = Σ ( (實際佔比 - 期望佔比) × ln(實際佔比 / 期望佔比) )

其中：
  期望佔比 = 訓練資料中該分箱的樣本比例
  實際佔比 = 當前線上資料中該分箱的樣本比例
  ln = 自然對數
  Σ = 對所有分箱加總

怎麼用：把一個特徵（如「年齡」）切成若干區間（20-30 歲、30-40 歲…），分別算訓練資料和線上資料在每個區間的比例，代入公式。

資料漂移的三種類型：

特徵漂移（Feature Drift）：輸入 X 的分佈改變，PSI 監控的就是這個
概念漂移（Concept Drift）：X 和 Y 的關係改變（例如，同樣的信用分數，現在代表的風險不一樣了）
標籤漂移（Label Drift）：輸出 Y 的分佈改變（例如，整體違約率突然升高）

監控架構實務：

# 每天計算一次 PSI，存進監控系統
import numpy as np

def calculate_psi(expected, actual, buckets=10):
    """
    expected: 訓練資料的特徵值列表
    actual: 線上資料的特徵值列表（同時段樣本）
    """
    # 以訓練資料為基準切分箱
    breakpoints = np.percentile(expected,
                                np.linspace(0, 100, buckets+1))

    exp_pct = np.histogram(expected, breakpoints)[0] / len(expected)
    act_pct = np.histogram(actual, breakpoints)[0] / len(actual)

    # 避免 log(0)
    exp_pct = np.where(exp_pct == 0, 0.0001, exp_pct)
    act_pct = np.where(act_pct == 0, 0.0001, act_pct)

    psi = np.sum((act_pct - exp_pct) * np.log(act_pct / exp_pct))
    return psi

# 判斷門檻
psi_value = calculate_psi(train_age, live_age)
if psi_value > 0.2:
    alert("資料漂移嚴重，建議重新訓練模型")

PSI 閾值對照：

PSI < 0.1：穩定，繼續使用
0.1 ≤ PSI < 0.2：輕微漂移，提高監控頻率
PSI ≥ 0.2：顯著漂移，啟動模型再訓練流程

05　陷阱

為什麼其他選項是錯的

A系統 CPU 與記憶體使用率波動幅度

字面在說什麼

監控伺服器的計算資源使用狀況，CPU 飆高或記憶體不夠代表系統可能有問題。

為什麼不對

CPU 和記憶體是系統健康指標，不是模型品質指標。模型完全可以在 CPU 很閒的情況下吐出一堆錯誤預測。伺服器資源正常，代表的是「推論服務跑得動」，跟「推論結果有沒有意義」是兩回事。這是 IT 監控，不是 AI 監控。

誰會選錯

習慣從 DevOps 角度看問題、把「系統沒壞」等於「AI 正常」的人。AI 系統需要同時監控基礎設施層（CPU/記憶體）和模型層（資料分佈、預測品質），這題問的是後者。

B模型推論結果的置信度（Confidence）分佈變化趨勢

字面在說什麼

觀察模型輸出的信心分數（如 softmax 機率）的整體分佈，如果模型原本很有信心，現在變得猶豫，代表可能有問題。

為什麼不對

置信度分佈是值得監控的指標，但它是輸出端的觀察，有滯後性。資料已經漂移、模型開始出錯一段時間後，置信度才會有明顯變化。而且置信度下降也可能是正常的（例如邊界案例增多），不一定代表效能要出問題。PSI 從輸入端就開始監控，預警比置信度更早。

誰會選錯

認為「模型自己的輸出應該最能反映模型狀態」的人。邏輯沒有完全錯，但問題是「預測效力」：置信度的變化往往跟在效能下滑之後，而 PSI 在效能下滑之前就能拉警報，題目問的是哪個最具預測效力。

CAPI 平均回應時間與延遲百分位數變化

字面在說什麼

追蹤 API 回應速度，例如 P99 延遲突然升高代表系統可能卡住了。

為什麼不對

延遲是效能（Performance）指標，指的是服務速度，不是預測品質。API 回應再慢，吐出來的答案可能還是對的；API 回應再快，答案可能已經全錯。延遲監控是用來抓「服務中斷」或「超載」的問題，對「模型預測品質即將下滑」完全沒有預測能力。

誰會選錯

把「模型效能」和「系統效能」混為一談的人。英文裡 performance 同時有「表現」和「效能」兩個意思，中文一樣容易混。「API 延遲」是系統層的效能，「模型準確率」才是模型層的效能，PSI 是用來預警後者的。

06　變形

同個考點下次怎麼變形

變形 1　邊界

PSI 的值一定越低越好嗎？PSI 等於零代表什麼？

直覺

PSI 衡量漂移，理想上是零嗎？

答案

PSI 等於零代表線上資料分佈跟訓練資料分佈完全一樣，理論上是最穩定的狀態。但現實中 PSI 永遠不會精確為零（有隨機誤差），小於 0.1 就視為穩定。也要注意：如果你的訓練資料本身有偏差，PSI 低只代表「跟有偏差的資料一樣」，不代表模型正確。

變形 2　反例

如果 PSI 很低但模型準確率還是下滑，原因可能是什麼？

直覺

PSI 低代表輸入資料沒漂移，但準確率還是掉了，這怎麼解釋？

答案

這是概念漂移（Concept Drift）的情況：輸入 X 的分佈沒變，但 X 和 Y 的關係變了。例如，同樣的信用分數，2020 年代表低風險，但 2025 年因為總體經濟改變，同樣分數的人違約率更高了。PSI 只監控輸入特徵分佈，對「X 和 Y 關係的改變」無能為力，這時候需要額外監控模型的輸出標籤分佈（Label Drift）。

變形 3　升級版

除了 PSI，還有哪些資料漂移的監控方法？

直覺

PSI 是針對分箱分佈，有沒有更通用或更精確的方法？

答案

有幾種進階方法：KL 散度（Kullback-Leibler Divergence）和 JS 散度直接比較機率分佈；KS 檢定（Kolmogorov-Smirnov Test）統計兩組資料最大差異；MMD（Maximum Mean Discrepancy）在高維特徵空間比較分佈。實務上，PSI 因為直覺易懂且有明確閾值（0.1 / 0.2），在金融業最常用；MMD 在圖像和 NLP 應用較多。

變形 4　跨領域

醫療 AI 模型上線後，哪個資料漂移最危險？

直覺

醫療場景特殊，資料漂移的影響和信貸不一樣？

答案

醫療最危險的是設備漂移（Device Drift）：同一家醫院換了不同廠牌的 CT 機或 MRI 機，影像風格改變，但病理特徵沒變。模型在舊機器的影像上訓練，在新機器的影像上判讀，PSI 可能偵測到像素分佈改變，但背後原因是設備而非疾病型態改變。醫療 AI 需要在每次設備更換後重新驗證（re-validation），這是法規要求，不只是工程問題。

變形 5　評估指標

怎麼評估一個監控系統的「預警提前量」夠不夠？

直覺

說某個指標「能提早預警」，怎麼量化「早了多少」？

答案

用歷史資料做回測（Backtesting）：找出真實效能下滑事件的時間點 T，再回頭看各指標在 T 之前多少天發出警報。PSI 超過閾值的時間點如果比準確率下滑早 14 天，就說「PSI 預警提前量是 14 天」。對比不同指標的提前量，就能客觀排出預測效力高低。

07　延伸

想再往下看，這 5 個

資料漂移（Data Drift）模型上線後輸入資料統計特性偏離訓練資料的現象，是最具預測力的效能衰退早期預警指標。
概念漂移（Concept Drift）輸入特徵與預測目標的關係隨時間改變，即使資料分佈不變，模型也會失準；比資料漂移更難偵測。
模型監控（Model Monitoring）ML 系統上線後的持續觀察機制，涵蓋系統層（延遲）和模型層（資料分佈、預測品質）兩個維度。
異常偵測（Anomaly Detection）偵測資料中偏離正常模式的樣本，在模型監控場景中可用來識別輸入分佈的突變，與資料漂移偵測互補。
機器學習維運（MLOps）將 DevOps 延伸至機器學習的工程學科，包含 CI/CD、模型版本管理、自動化再訓練與持續監控，是本題情境的整體框架。