iPAS AI 應用規劃師 中級 科目一

哪個監控指標能最早偵測模型效能下滑?

原題 32

某企業已將 AI 模型部署於生產環境,為確保系統持續穩定運作,並能提前偵測模型效能可能衰退,技術團隊希望透過監控指標進行預警。下列哪一項監控指標最具預測效力,能提早發現模型效能下滑風險?

白話

某企業把 AI 模型部署到生產環境後,技術團隊想透過監控指標來提前預警,在模型效能真正衰退前就察覺到風險。

問你:哪一項監控指標最具預測效力,能提早發現模型效能下滑的風險?

點選你的答案。

01 總結

一句話總結

最能「提早預警」模型效能下滑的指標是:PSI(群體穩定性指數,Population Stability Index)。它直接量測「現在進來的資料跟當初訓練時的資料有多不一樣」,資料分佈一偏移,模型出包只是時間問題

02 情境

先感受問題:模型沒改,結果就越來越爛

假設「全台信貸公司」用 AI 模型預測申貸者會不會違約,模型在 2023 年訓練完畢,當時準確率 92%。

2025 年初,公司發現實際違約率突然升高,但模型說大部分人是「低風險」。

工程師去查:

  • CPU 使用率:正常
  • API 回應時間:正常
  • 模型沒有修改過

問題出在哪?

原來,2024 年升息環境改變,申貸族群的年齡分佈、負債比例都跟 2023 年訓練資料差很多。模型還用舊的眼光判斷新的人,當然越判越錯。

這叫做資料漂移(Data Drift)。如果有在監控 PSI,早在資料分佈開始偏移時就會拉警報,不用等到模型真的爛了才發現。

03 對照

只看系統指標,為什麼發現不了模型要壞

傳統 IT 監控只盯著伺服器健康度,不管模型「認知是否正確」。這樣有五個漏洞:

  1. CPU/記憶體正常不代表模型正確:模型跑得順,但預測全部偏掉,伺服器毫無感覺。
  2. API 回應快不代表答案對:0.02 秒吐出一個錯誤答案,延遲指標漂亮但結果是廢的。
  3. 等準確率下滑才知道,已經太晚:準確率是結果指標(lagging indicator),要等真實標籤回來才算得出來,通常滯後幾週到幾個月。
  4. 沒有標籤的生產環境根本算不了準確率:信貸模型預測「不會違約」,要等 6 個月後才知道對不對,哪能即時監控?
  5. 輸入資料改變了,無人察覺:資料管道看起來正常,但資料的統計特性悄悄漂移,沒人盯就沒人知道。
04 解法

PSI 怎麼當預警雷達

回到「全台信貸公司」。PSI 的邏輯很直白:把訓練時的資料分佈(基準)跟現在的線上資料分佈做比較,算出一個數字。

PSI 小於 0.1:分佈幾乎沒變,模型繼續用沒問題
PSI 介於 0.1 到 0.2:輕微漂移,需要留意
PSI 大於 0.2:顯著漂移,模型可能需要重新訓練

2024 年中,全台信貸公司的 PSI 從 0.05 升到 0.23。

這個數字告訴工程師:現在進來的申貸者特徵,跟訓練時的樣子已經差很多了。不用等模型爛掉才知道,現在就能啟動再訓練或人工審查機制。

CPU 和 API 延遲是「系統健不健康」,PSI 是「模型認知有沒有過期」。生產環境需要兩者都盯,但要預測效能下滑,PSI 是那個有預測力的指標。

這就是選項 D 講的:輸入特徵與訓練資料分佈差異的 PSI(Population Stability Index)指數

技術版:PSI 公式與資料漂移監控實務

中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。

本題沒有程式碼,但 PSI 有具體公式值得理解。

PSI 公式

PSI = Σ ( (實際佔比 - 期望佔比) × ln(實際佔比 / 期望佔比) )

其中:
  期望佔比 = 訓練資料中該分箱的樣本比例
  實際佔比 = 當前線上資料中該分箱的樣本比例
  ln = 自然對數
  Σ = 對所有分箱加總

怎麼用:把一個特徵(如「年齡」)切成若干區間(20-30 歲、30-40 歲…),分別算訓練資料和線上資料在每個區間的比例,代入公式。

資料漂移的三種類型

  • 特徵漂移(Feature Drift):輸入 X 的分佈改變,PSI 監控的就是這個
  • 概念漂移(Concept Drift):X 和 Y 的關係改變(例如,同樣的信用分數,現在代表的風險不一樣了)
  • 標籤漂移(Label Drift):輸出 Y 的分佈改變(例如,整體違約率突然升高)

監控架構實務

# 每天計算一次 PSI,存進監控系統
import numpy as np

def calculate_psi(expected, actual, buckets=10):
    """
    expected: 訓練資料的特徵值列表
    actual: 線上資料的特徵值列表(同時段樣本)
    """
    # 以訓練資料為基準切分箱
    breakpoints = np.percentile(expected,
                                np.linspace(0, 100, buckets+1))

    exp_pct = np.histogram(expected, breakpoints)[0] / len(expected)
    act_pct = np.histogram(actual, breakpoints)[0] / len(actual)

    # 避免 log(0)
    exp_pct = np.where(exp_pct == 0, 0.0001, exp_pct)
    act_pct = np.where(act_pct == 0, 0.0001, act_pct)

    psi = np.sum((act_pct - exp_pct) * np.log(act_pct / exp_pct))
    return psi

# 判斷門檻
psi_value = calculate_psi(train_age, live_age)
if psi_value > 0.2:
    alert("資料漂移嚴重,建議重新訓練模型")

PSI 閾值對照

PSI < 0.1:穩定,繼續使用
0.1 ≤ PSI < 0.2:輕微漂移,提高監控頻率
PSI ≥ 0.2:顯著漂移,啟動模型再訓練流程
05 陷阱

為什麼其他選項是錯的

A系統 CPU 與記憶體使用率波動幅度

字面在說什麼

監控伺服器的計算資源使用狀況,CPU 飆高或記憶體不夠代表系統可能有問題。

為什麼不對

CPU 和記憶體是系統健康指標,不是模型品質指標。模型完全可以在 CPU 很閒的情況下吐出一堆錯誤預測。伺服器資源正常,代表的是「推論服務跑得動」,跟「推論結果有沒有意義」是兩回事。這是 IT 監控,不是 AI 監控。

誰會選錯

習慣從 DevOps 角度看問題、把「系統沒壞」等於「AI 正常」的人。AI 系統需要同時監控基礎設施層(CPU/記憶體)和模型層(資料分佈、預測品質),這題問的是後者。

B模型推論結果的置信度(Confidence)分佈變化趨勢

字面在說什麼

觀察模型輸出的信心分數(如 softmax 機率)的整體分佈,如果模型原本很有信心,現在變得猶豫,代表可能有問題。

為什麼不對

置信度分佈是值得監控的指標,但它是輸出端的觀察,有滯後性。資料已經漂移、模型開始出錯一段時間後,置信度才會有明顯變化。而且置信度下降也可能是正常的(例如邊界案例增多),不一定代表效能要出問題。PSI 從輸入端就開始監控,預警比置信度更早。

誰會選錯

認為「模型自己的輸出應該最能反映模型狀態」的人。邏輯沒有完全錯,但問題是「預測效力」:置信度的變化往往跟在效能下滑之後,而 PSI 在效能下滑之前就能拉警報,題目問的是哪個最具預測效力。

CAPI 平均回應時間與延遲百分位數變化

字面在說什麼

追蹤 API 回應速度,例如 P99 延遲突然升高代表系統可能卡住了。

為什麼不對

延遲是效能(Performance)指標,指的是服務速度,不是預測品質。API 回應再慢,吐出來的答案可能還是對的;API 回應再快,答案可能已經全錯。延遲監控是用來抓「服務中斷」或「超載」的問題,對「模型預測品質即將下滑」完全沒有預測能力。

誰會選錯

把「模型效能」和「系統效能」混為一談的人。英文裡 performance 同時有「表現」和「效能」兩個意思,中文一樣容易混。「API 延遲」是系統層的效能,「模型準確率」才是模型層的效能,PSI 是用來預警後者的。

06 變形

同個考點下次怎麼變形

變形 1 邊界

PSI 的值一定越低越好嗎?PSI 等於零代表什麼?

直覺

PSI 衡量漂移,理想上是零嗎?

答案

PSI 等於零代表線上資料分佈跟訓練資料分佈完全一樣,理論上是最穩定的狀態。但現實中 PSI 永遠不會精確為零(有隨機誤差),小於 0.1 就視為穩定。也要注意:如果你的訓練資料本身有偏差,PSI 低只代表「跟有偏差的資料一樣」,不代表模型正確。

變形 2 反例

如果 PSI 很低但模型準確率還是下滑,原因可能是什麼?

直覺

PSI 低代表輸入資料沒漂移,但準確率還是掉了,這怎麼解釋?

答案

這是概念漂移(Concept Drift)的情況:輸入 X 的分佈沒變,但 X 和 Y 的關係變了。例如,同樣的信用分數,2020 年代表低風險,但 2025 年因為總體經濟改變,同樣分數的人違約率更高了。PSI 只監控輸入特徵分佈,對「X 和 Y 關係的改變」無能為力,這時候需要額外監控模型的輸出標籤分佈(Label Drift)。

變形 3 升級版

除了 PSI,還有哪些資料漂移的監控方法?

直覺

PSI 是針對分箱分佈,有沒有更通用或更精確的方法?

答案

有幾種進階方法:KL 散度(Kullback-Leibler Divergence)和 JS 散度直接比較機率分佈;KS 檢定(Kolmogorov-Smirnov Test)統計兩組資料最大差異;MMD(Maximum Mean Discrepancy)在高維特徵空間比較分佈。實務上,PSI 因為直覺易懂且有明確閾值(0.1 / 0.2),在金融業最常用;MMD 在圖像和 NLP 應用較多。

變形 4 跨領域

醫療 AI 模型上線後,哪個資料漂移最危險?

直覺

醫療場景特殊,資料漂移的影響和信貸不一樣?

答案

醫療最危險的是設備漂移(Device Drift):同一家醫院換了不同廠牌的 CT 機或 MRI 機,影像風格改變,但病理特徵沒變。模型在舊機器的影像上訓練,在新機器的影像上判讀,PSI 可能偵測到像素分佈改變,但背後原因是設備而非疾病型態改變。醫療 AI 需要在每次設備更換後重新驗證(re-validation),這是法規要求,不只是工程問題。

變形 5 評估指標

怎麼評估一個監控系統的「預警提前量」夠不夠?

直覺

說某個指標「能提早預警」,怎麼量化「早了多少」?

答案

用歷史資料做回測(Backtesting):找出真實效能下滑事件的時間點 T,再回頭看各指標在 T 之前多少天發出警報。PSI 超過閾值的時間點如果比準確率下滑早 14 天,就說「PSI 預警提前量是 14 天」。對比不同指標的提前量,就能客觀排出預測效力高低。

07 延伸

想再往下看,這 5 個

  • 資料漂移(Data Drift)模型上線後輸入資料統計特性偏離訓練資料的現象,是最具預測力的效能衰退早期預警指標。
  • 概念漂移(Concept Drift)輸入特徵與預測目標的關係隨時間改變,即使資料分佈不變,模型也會失準;比資料漂移更難偵測。
  • 模型監控(Model Monitoring)ML 系統上線後的持續觀察機制,涵蓋系統層(延遲)和模型層(資料分佈、預測品質)兩個維度。
  • 異常偵測(Anomaly Detection)偵測資料中偏離正常模式的樣本,在模型監控場景中可用來識別輸入分佈的突變,與資料漂移偵測互補。
  • 機器學習維運(MLOps)將 DevOps 延伸至機器學習的工程學科,包含 CI/CD、模型版本管理、自動化再訓練與持續監控,是本題情境的整體框架。
出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二次 iPAS AI 應用規劃師 中級 科目一 第 32 題

查看官方原文 PDF