iPAS AI 應用規劃師中級　科目二　大數據處理分析與應用

近似分位數技術的核心目的是什麼？

原題 27

某金融科技公司分析每日上億筆交易資料，以監控客戶轉帳金額分佈與異常波動。由於資料量極大，為兼顧效率與準確度，團隊決定採用「近似分位數（Approximate Quantile）」方法進行資料摘要統計。下列何者最能正確反映該技術的核心目的？

白話

一家金融科技公司每天要處理上億筆交易紀錄，需要監控轉帳金額的分布和異常。他們選擇用「近似分位數」這個方法做資料摘要。

問你：近似分位數技術的核心目的是什麼？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

近似分位數（Approximate Quantile）的核心目的是：在可容忍的誤差範圍內，快速估算大規模資料的分位值，以支援即時或低延遲的分析需求。犧牲一點精確度，換取大幅提升的計算效率。

02　情境

先感受問題：一億筆資料要算中位數，精確版需要多少時間

豐盛金融科技的監控系統每天處理 1 億筆轉帳紀錄，需要每分鐘更新一次「轉帳金額分位數報告」（P10、P25、P50、P75、P90、P99），以便即時偵測異常波動。

工程師宗翰估算：精確計算分位數需要對全部 1 億筆資料排序，排序的時間複雜度是 O(n log n)，1 億筆大約需要 15-30 秒。但監控要求「每分鐘更新」，計算一次就花了 30 秒，根本跑不過來。

而且資料是持續流入的：今天的 1 億筆中，最後一批可能在下午才進來。如果要等全部到齊再排序，「即時」監控就變成了「事後」監控。

03　對照

精確分位數在大規模即時場景下的五個限制

排序需要全資料到記憶體：精確分位數要把所有資料排序，1 億筆佔用幾 GB 的記憶體，超出單機可用記憶體，光是載入就是問題。
計算時間太長不支援即時：O(n log n) 排序對億級資料需要數十秒，無法滿足分鐘級甚至秒級的即時監控需求。
資料流無法等齊再算：串流資料（Streaming Data）持續流入，「等全部到了再排序」違背即時分析的本質，資料永遠不會「全部到齊」。
每次新資料進來需要重算：精確排序是靜態的，每新增一筆資料就要重新排序，計算成本隨資料量線性成長，工程上不可持續。
高精確度在監控場景的邊際效益有限：監控轉帳異常，知道「P99 大約在 50,000 元 ± 500 元」跟「精確是 49,873 元」在決策上沒有差別，過度追求精確是資源浪費。

04　解法

近似分位數：用可接受的誤差換取即時計算能力

宗翰改用近似分位數算法（如 T-Digest 或 GK 算法），核心思路是：

不儲存所有原始資料，只維護一個「摘要資料結構」（Sketch），記錄資料分布的輪廓
每筆新資料進來時，只需要更新摘要結構，時間複雜度大幅降低
查詢 P99 時，從摘要結構估算，誤差在預設的 ε（epsilon）範圍內（如 ±1%）
支援串流資料：不需要儲存歷史原始資料，也不需要等資料到齊

效果：原本需要 30 秒的精確計算，近似版本在毫秒內完成，誤差小於 1%，對監控異常波動完全夠用。

這就是選項 D 講的：在可容忍誤差範圍內，快速估算分位值以支援即時分析。

技術版：近似分位數算法在串流資料分析中的位置

近似分位數（Approximate Quantile）是串流計算（Streaming Computing）領域的核心技術之一，解決「在有限記憶體和時間約束下，對大規模或持續流入的資料估算統計量」的問題。

主流算法：

GK 算法（Greenwald-Khanna, 2001）：第一個正式的近似分位數算法，保證誤差在 ε·n 範圍內，記憶體使用 O(1/ε · log(εn))。
T-Digest：由 Ted Dunning 提出，使用「壓縮的加權中心點」（Centroid）表示分布，對極端分位數（如 P0.01 和 P99.99）精度更高。廣泛用於 Elasticsearch、Spark、InfluxDB。
KLL Sketch（Karnin-Lang-Liberty）：理論最優的近似分位數算法，記憶體使用最小。Apache DataSketches 庫實作。

實務應用場景：

APM 系統（應用效能監控）：計算 API 回應時間的 P95/P99 延遲
金融監控：即時監控交易金額分位數，偵測異常波動
廣告系統：計算競價出價分位數，優化競價策略

跟精確分位數的取捨：精確算法保證完全正確但需要 O(n) 記憶體和 O(n log n) 時間；近似算法用 O(1/ε · log n) 的固定記憶體和 O(log n) 的時間，誤差有數學上界保證。

為什麼 iPAS 考這題：大數據分析師必須理解精確計算的邊界，以及何時近似計算已足夠。在串流資料場景下，近似算法是唯一可行的選擇，是系統設計的重要概念。

05　陷阱

為什麼其他選項是錯的

A確保每個分位值的結果完全精確，即使計算時間較長

字面在說什麼

分位數計算要精確，時間長就長吧。

為什麼不對

這描述的是精確分位數（Exact Quantile），不是近似分位數。近似分位數的核心定義就是「接受誤差換取效率」，選項 A 說的是相反的目標。題目明確說「採用近似分位數方法」，問的是這個方法的目的，而不是在說最終要精確。

誰會選錯

覺得「分析就要精確」的人，以為精確是唯一目標，沒有意識到即時分析場景下「夠用的快速估算」才是正確的工程取捨。

B利用機器學習模型預測分位數位置，以減少統計計算量

字面在說什麼

用機器學習來預測分位數在哪裡，不用算那麼多。

為什麼不對

近似分位數算法（如 T-Digest、GK 算法、KLL Sketch）是基於數學統計的摘要算法，不是機器學習模型。機器學習模型需要訓練資料和特徵工程，用來預測「分位數在哪裡」本身就需要知道真實分位數，是個邏輯循環。近似分位數的核心是「資料摘要（Sketching）」，不是「預測」。

誰會選錯

覺得「機器學習萬能」、把 ML 套用到不適用場景的人。近似分位數是個有嚴格數學誤差保證的算法，不是靠模型預測。

C僅能對結構化資料進行批次處理，無法應用於即時資料流

字面在說什麼

近似分位數只能批次處理，沒辦法用在即時串流。

為什麼不對

這說的是近似分位數的反面。近似分位數最重要的應用場景之一就是串流資料（Streaming Data）的即時計算，正因為串流資料無法等全部到齊、無法全部存在記憶體裡，才需要近似分位數算法。T-Digest、GK 算法等都是為串流場景設計的，每筆資料來時只要更新摘要結構，可以連續不間斷地計算。

誰會選錯

把近似分位數誤解為某種「批次統計」工具的人，沒有意識到它的核心價值恰恰是支援串流即時計算。

06　變形

同個考點下次怎麼變形

變形 1

P99 延遲是什麼？為什麼 APM 系統要監控它？

直覺

P99 就是第 99 百分位數，跟一般平均值有什麼不同？

答案

P99 延遲是「有 99% 的請求在這個時間內完成」的門檻值。平均值容易被少量正常快速請求拉低，掩蓋「最慢的 1%」的真實體驗。高流量系統中，P99 = 500ms 代表每 100 個用戶就有 1 個等超過半秒，這對用戶體驗的影響是可感知的。APM 系統用近似分位數即時監控 P99，才能快速偵測到效能劣化。

變形 2

T-Digest 和精確排序相比，記憶體使用有多少差距？

直覺

T-Digest 說節省記憶體，大概是多少倍的差距？

答案

精確排序需要儲存所有 n 個原始值，1 億筆 64-bit 浮點數 ≈ 800MB 記憶體。T-Digest 只需維護幾千個「壓縮中心點」，記憶體用量通常在 KB 到 MB 級，與 n 無關（O(1/ε)）。換句話說，對 1 億筆資料，T-Digest 可能只需要精確版本 1/1000 的記憶體，而誤差通常在 0.1% 以內。

變形 3

近似算法的「誤差保證」是什麼意思？

直覺

「近似」聽起來就不準，怎麼知道誤差有多大？

答案

近似分位數算法有數學上界保證：例如 GK 算法保證對任意查詢分位數 φ，回傳的結果 r 滿足「真實排名在 (φ-ε)·n 到 (φ+ε)·n 之間」，ε 是預設的精度參數。這不是隨機誤差，而是有保證上界的系統性誤差。使用者可以根據業務需求設定 ε（如 ε = 0.01 代表誤差不超過 1%），算法保證不會超過這個上界。

變形 4

串流資料和批次資料在統計計算上有什麼本質差異？

直覺

串流就是資料一直進來，批次就是一批一批處理，有什麼大差別？

答案

批次資料靜態、有限，可以全部載入記憶體一起計算。串流資料動態、無界（永遠不會「全部到了」），每筆資料來時必須即時更新統計量，不能回溯到過去的原始資料，對記憶體使用有嚴格限制。精確統計算法為批次設計，近似算法（包含分位數、基數估算、頻率估算）為串流場景設計。

變形 5

除了分位數，還有哪些常見的串流近似算法？

直覺

串流場景需要「近似」的統計量只有分位數嗎？

答案

不只分位數。常見的串流近似算法還有：HyperLogLog（估算基數 / Cardinality，即「有多少個不重複元素」）、Count-Min Sketch（估算頻率 / Frequency，即「某個元素出現幾次」）、Bloom Filter（判斷某元素是否曾出現，允許一定誤報率）。這些都是用固定記憶體換取可接受誤差的串流摘要算法。

07　延伸

想再往下看，這 5 個

描述性統計（Descriptive Statistics）分位數是描述性統計的核心工具之一，近似分位數是其在大規模資料場景下的高效版本。
即時推論（Real-Time Inference）即時分析需要在毫秒內回應，近似分位數算法是支援即時統計監控的關鍵技術。
異常偵測（Anomaly Detection）監控分位數的異常波動（如 P99 突然飆高）是串流場景下異常偵測的常見模式。
大數據（Big Data）億級資料的統計計算是大數據的核心挑戰，近似算法是應對這個挑戰的重要工程工具。
資料管線（Data Pipeline）近似分位數通常整合在即時資料管線的監控模組中，持續追蹤資料分布的健康狀態。