iPAS AI 應用規劃師中級　科目三　機器學習技術與應用

殘差圖出現彎曲，迴歸模型出了什麼問題？

原題 24

某房地產公司利用多元迴歸模型（Multiple Regression Model）預測房價，並繪製殘差圖（Residual Plot）檢查模型品質。結果顯示部分資料點的殘差極大，且在高價區樣本中出現系統性彎曲分佈現象。根據此觀察，下列何者為最可能的正確解釋？

白話

一個房地產公司用多元迴歸模型預測房價，畫了殘差圖來檢查模型品質。殘差圖顯示：有些資料點的殘差（預測值與實際值的差距）非常大，而且在高房價的資料區間裡，殘差呈現出系統性的彎曲分佈，而不是隨機散落。

問你：殘差圖出現這種「極大殘差」加上「高價區系統性彎曲」的現象，最可能是什麼原因？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

殘差圖出現「極大殘差」和「高價區系統性彎曲」，最可能的解釋是：模型存在異常值（Outlier）或非線性關係，違反迴歸假設——線性迴歸要求殘差隨機分佈，系統性的彎曲就是告訴你真實關係不是線性的。

02　情境

先感受問題：模型說房子值 1000 萬，但實際成交 1800 萬

你是信義房屋的資料分析師。你的多元迴歸模型用坪數、樓層、屋齡、捷運距離這四個特徵預測房價。模型在多數房子上預測誤差都在 ±10% 內，看起來不錯。

但你畫了殘差圖後發現問題：

有幾棟頂樓豪宅，實際成交 3000 萬，模型預測只有 1200 萬，殘差高達 1800 萬——這是異常值造成的極大殘差。
在高房價區間（2000 萬以上），殘差不是上下隨機散落，而是呈現一個 U 形或倒 U 形的曲線——這是系統性彎曲，告訴你模型在高價區「系統性低估」。

這個彎曲形狀說明：房價在高價區段的關係不是線性的。例如，捷運距離每近 100 公尺對 500 萬房子的影響，遠不如對 3000 萬豪宅的影響——這是非線性關係，線性模型無法捕捉。

03　對照

線性迴歸對殘差的基本假設

殘差應隨機分佈：理想的殘差圖應該是散點無規律地分佈在零軸附近，沒有任何趨勢或形狀，代表模型已捕捉所有系統性資訊。
殘差變異數應均等（Homoscedasticity）：不論預測值大小，殘差的散布範圍應一致。如果高房價區的殘差特別大，代表異方差（Heteroscedasticity）問題。
殘差應服從常態分佈：迴歸的統計推論（如 t 檢定、F 檢定）建立在殘差常態性假設上，極端異常值會破壞這個假設。
特徵與目標變數的關係應為線性：線性迴歸假設每個特徵對房價的影響是固定的，與房價水準無關。如果高房價有不同的動態，線性模型就會失效。
異常值的影響：單一筆極端資料點可以對迴歸係數產生很大的拉動，導致整條回歸線偏移，使多數正常資料的殘差增加。

04　解法

怎麼解讀這個殘差圖

信義房屋的殘差圖顯示兩種病徵，各自對應一個違反迴歸假設的問題：

極大殘差：幾棟頂樓豪宅的成交價遠超模型預測，這些是異常值（Outlier）。它們可能代表特殊地段、景觀、建築設計等「不在特徵裡」的因素，或者就是市場上的稀有交易，超出一般線性關係的範疇。
系統性彎曲：在高房價區，殘差形成 U 形曲線（系統性低估），代表真實的房價決定因素在高價區與低價區的運作方式不同——這是非線性關係，線性模型天生無法處理。

解決方向包括：對異常值進行處理（識別後剔除或加入特殊標籤特徵）；對高度偏斜的目標變數取對數（Log Transformation）；或改用能捕捉非線性關係的模型（決策樹、隨機森林、XGBoost）。

這就是選項 C 講的：模型存在異常值（Outlier）或非線性關係，違反迴歸假設。

技術版：殘差分析在迴歸診斷中的位置

殘差分析（Residual Analysis）屬於統計建模與機器學習模型診斷的範疇，是驗證迴歸假設是否成立的標準工具。

在 AI 領域的位置：在機器學習流程中，殘差分析發生在「模型訓練後」的評估階段。它比單純看 R² 或 MSE 更有診斷價值，因為它能揭露「模型在哪些區域系統性失效」，而不只是一個整體平均誤差。

常見殘差圖形狀及含義：

隨機散佈（理想）：模型假設成立，殘差無規律。
U 形或倒 U 形曲線：非線性關係未被捕捉，需要加入多項式特徵或改用非線性模型。
喇叭形（Funnel Shape）：異方差，殘差方差隨預測值增大。考慮對目標變數取對數。
幾個孤立極端點：異常值，需要單獨處理。

跟相關術語的對比：

過擬合（Overfitting）：在訓練集上殘差極小，但測試集上殘差大，與殘差圖「系統性彎曲」不同。
欠擬合（Underfitting）：殘差圖可能顯示整體偏高，但不會有特定的系統性曲線形狀。
異常值（Outlier）：影響力大的異常值（Influential Point）可以用 Cook's Distance 來量化其對迴歸係數的影響。

為什麼出題者要考這題：殘差圖是迴歸診斷的核心技能，能讀懂殘差圖代表真正理解了線性迴歸的假設，而不只是套公式。混淆「系統性彎曲 = 非線性/異常值」與「過擬合/欠擬合」，是這題設計的核心陷阱。

05　陷阱

為什麼其他選項是錯的

A模型過度擬合（Overfitting），導致在訓練資料上表現過好、泛化能力不足

字面在說什麼

過擬合是模型把訓練資料「背起來」，在訓練集上殘差很小，但在新資料上誤差大。

為什麼不對

過擬合的診斷方式是「訓練誤差 vs. 測試誤差的差距」，不是殘差圖的形狀。題目描述的是「殘差圖出現系統性彎曲」——這是非線性關係的症狀，不是過擬合的症狀。過擬合的殘差圖通常在訓練集上非常隨機（誤差接近零），不會出現系統性彎曲。

誰會選錯

看到「極大殘差」就想到「模型不準 → 過擬合」的人。記住：過擬合的模型在訓練集上太準了，殘差極小；題目說的是「殘差極大且彎曲」，這是違反迴歸假設，不是過擬合。

B模型特徵數量不足，導致欠擬合（Underfitting）

字面在說什麼

欠擬合是模型太簡單，捕捉不到資料的規律，整體誤差偏高。

為什麼不對

欠擬合會讓整體誤差偏高，但不會造成「只有高價區出現系統性彎曲」這種特定分佈。題目說的是高價區才有問題，其他區間模型表現正常——這是非線性關係的特徵（在某個值域才顯現），不是欠擬合（整體失效）。

誰會選錯

把「模型在某區間準確率低」和「欠擬合」混淆的人。欠擬合是模型整體表現差，而非「在特定值域系統性偏差」。

D殘差圖呈現隨機分佈，表示模型已完全符合所有假設

字面在說什麼

理想的殘差圖確實應該是隨機分佈的——這代表模型已捕捉所有系統性規律。

為什麼不對

題目明確說殘差圖「出現系統性彎曲」，這跟「隨機分佈」完全相反。選項 D 描述的是理想情況，而題目描述的是問題情況，完全不符合題目的觀察結果。

誰會選錯

讀題不仔細，沒注意到題目說的是「系統性彎曲」而非「隨機分佈」的人。這個選項是在考你是否真的理解了題目描述的情況。

06　變形

同個考點下次怎麼變形

變形 1

殘差圖呈「喇叭形」（越往右越散開），代表什麼問題？

直覺

誤差的大小隨著預測值的增加而增加，不是固定的。

答案

這是異方差（Heteroscedasticity）問題，違反了迴歸的「殘差方差均等」假設。常見解法是對目標變數做 Log 轉換（取對數），讓變異數相對穩定。這種情況在房價、收入等高度偏斜的資料中很常見。

變形 2

如何處理迴歸中的異常值？

直覺

直接刪掉？還是有更好的方式？

答案

處理異常值的方式依情況而定：（1）確認資料錯誤就刪除；（2）真實的極端值（如豪宅）可加入「豪宅類別」特徵，讓模型專門處理；（3）用對離群值不敏感的模型（如隨機森林、梯度提升）；（4）用 Winsorization（縮尾處理）把極端值截斷到某百分位；（5）只刪除有資料品質問題的，不要無腦刪除所有離群點。

變形 3

非線性關係可以加入多項式特徵來解決嗎？

直覺

如果房價與坪數的關係是曲線而非直線，加入「坪數的平方」是不是就能解決？

答案

可以，這是多項式迴歸（Polynomial Regression）。加入特徵的高次項（坪數²、坪數³）讓線性迴歸能擬合曲線關係。但要注意：次數越高，越容易過擬合；通常配合正則化（Ridge/Lasso）使用，並用交叉驗證選擇合適的多項式次數。

變形 4

R² 很高（0.95），但殘差圖出現彎曲，模型可用嗎？

直覺

R² 代表模型解釋了 95% 的變異，這樣不是已經很好了嗎？

答案

R² 高不代表模型沒問題。高 R² 加上「殘差彎曲」代表模型在某些區域系統性偏差，可能對高房價的房子有固定方向的預測錯誤。商業決策要特別注意這種「整體看起來好，但在重要子群體上失效」的問題，這是資料科學實務中很常見的陷阱。

變形 5

Cook's Distance 是什麼，用來做什麼？

直覺

如何量化一個資料點對迴歸結果的影響力？

答案

Cook's Distance 衡量「如果刪掉這個資料點，迴歸係數會改變多少」。值越大代表這個點的影響力越強（有可能是異常值）。通常 Cook's Distance > 4/n（n 為樣本量）的點值得特別檢查。這是識別高影響力資料點的標準工具，比單純看殘差大小更全面。

07　延伸

想再往下看，這 5 個

線性迴歸（Linear Regression）本題的模型基礎，其假設（殘差隨機、方差均等、線性關係）是殘差分析的診斷標準。
過擬合（Overfitting）常與殘差大混淆，但過擬合的診斷是訓練/測試誤差差距，而非殘差圖形狀。
欠擬合（Underfitting）整體誤差高，與殘差圖系統性彎曲的病徵不同，需區分。
偏差方差權衡（Bias-Variance Tradeoff）殘差彎曲代表高偏差（High Bias）——模型在某個維度系統性錯誤，是偏差問題的一種表現。
異常偵測（Anomaly Detection）殘差圖中的極端孤立點就是異常值，異常偵測的方法可用來系統性識別和處理這些點。