iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用

殘差圖出現彎曲,迴歸模型出了什麼問題?

原題 24

某房地產公司利用多元迴歸模型(Multiple Regression Model)預測房價,並繪製殘差圖(Residual Plot)檢查模型品質。結果顯示部分資料點的殘差極大,且在高價區樣本中出現系統性彎曲分佈現象。根據此觀察,下列何者為最可能的正確解釋?

白話

一個房地產公司用多元迴歸模型預測房價,畫了殘差圖來檢查模型品質。殘差圖顯示:有些資料點的殘差(預測值與實際值的差距)非常大,而且在高房價的資料區間裡,殘差呈現出系統性的彎曲分佈,而不是隨機散落。

問你:殘差圖出現這種「極大殘差」加上「高價區系統性彎曲」的現象,最可能是什麼原因?

點選你的答案。

01 總結

一句話總結

殘差圖出現「極大殘差」和「高價區系統性彎曲」,最可能的解釋是:模型存在異常值(Outlier)或非線性關係,違反迴歸假設——線性迴歸要求殘差隨機分佈,系統性的彎曲就是告訴你真實關係不是線性的。

02 情境

先感受問題:模型說房子值 1000 萬,但實際成交 1800 萬

你是信義房屋的資料分析師。你的多元迴歸模型用坪數、樓層、屋齡、捷運距離這四個特徵預測房價。模型在多數房子上預測誤差都在 ±10% 內,看起來不錯。

但你畫了殘差圖後發現問題:

  • 有幾棟頂樓豪宅,實際成交 3000 萬,模型預測只有 1200 萬,殘差高達 1800 萬——這是異常值造成的極大殘差。
  • 在高房價區間(2000 萬以上),殘差不是上下隨機散落,而是呈現一個 U 形或倒 U 形的曲線——這是系統性彎曲,告訴你模型在高價區「系統性低估」。

這個彎曲形狀說明:房價在高價區段的關係不是線性的。例如,捷運距離每近 100 公尺對 500 萬房子的影響,遠不如對 3000 萬豪宅的影響——這是非線性關係,線性模型無法捕捉。

03 對照

線性迴歸對殘差的基本假設

  1. 殘差應隨機分佈:理想的殘差圖應該是散點無規律地分佈在零軸附近,沒有任何趨勢或形狀,代表模型已捕捉所有系統性資訊。
  2. 殘差變異數應均等(Homoscedasticity):不論預測值大小,殘差的散布範圍應一致。如果高房價區的殘差特別大,代表異方差(Heteroscedasticity)問題。
  3. 殘差應服從常態分佈:迴歸的統計推論(如 t 檢定、F 檢定)建立在殘差常態性假設上,極端異常值會破壞這個假設。
  4. 特徵與目標變數的關係應為線性:線性迴歸假設每個特徵對房價的影響是固定的,與房價水準無關。如果高房價有不同的動態,線性模型就會失效。
  5. 異常值的影響:單一筆極端資料點可以對迴歸係數產生很大的拉動,導致整條回歸線偏移,使多數正常資料的殘差增加。
04 解法

怎麼解讀這個殘差圖

信義房屋的殘差圖顯示兩種病徵,各自對應一個違反迴歸假設的問題:

  • 極大殘差:幾棟頂樓豪宅的成交價遠超模型預測,這些是異常值(Outlier)。它們可能代表特殊地段、景觀、建築設計等「不在特徵裡」的因素,或者就是市場上的稀有交易,超出一般線性關係的範疇。
  • 系統性彎曲:在高房價區,殘差形成 U 形曲線(系統性低估),代表真實的房價決定因素在高價區與低價區的運作方式不同——這是非線性關係,線性模型天生無法處理。

解決方向包括:對異常值進行處理(識別後剔除或加入特殊標籤特徵);對高度偏斜的目標變數取對數(Log Transformation);或改用能捕捉非線性關係的模型(決策樹、隨機森林、XGBoost)。

這就是選項 C 講的:模型存在異常值(Outlier)或非線性關係,違反迴歸假設

技術版:殘差分析在迴歸診斷中的位置

殘差分析(Residual Analysis)屬於統計建模機器學習模型診斷的範疇,是驗證迴歸假設是否成立的標準工具。

在 AI 領域的位置:在機器學習流程中,殘差分析發生在「模型訓練後」的評估階段。它比單純看 R² 或 MSE 更有診斷價值,因為它能揭露「模型在哪些區域系統性失效」,而不只是一個整體平均誤差。

常見殘差圖形狀及含義:

  • 隨機散佈(理想):模型假設成立,殘差無規律。
  • U 形或倒 U 形曲線:非線性關係未被捕捉,需要加入多項式特徵或改用非線性模型。
  • 喇叭形(Funnel Shape):異方差,殘差方差隨預測值增大。考慮對目標變數取對數。
  • 幾個孤立極端點:異常值,需要單獨處理。

跟相關術語的對比:

  • 過擬合(Overfitting):在訓練集上殘差極小,但測試集上殘差大,與殘差圖「系統性彎曲」不同。
  • 欠擬合(Underfitting):殘差圖可能顯示整體偏高,但不會有特定的系統性曲線形狀。
  • 異常值(Outlier):影響力大的異常值(Influential Point)可以用 Cook's Distance 來量化其對迴歸係數的影響。

為什麼出題者要考這題:殘差圖是迴歸診斷的核心技能,能讀懂殘差圖代表真正理解了線性迴歸的假設,而不只是套公式。混淆「系統性彎曲 = 非線性/異常值」與「過擬合/欠擬合」,是這題設計的核心陷阱。

05 陷阱

為什麼其他選項是錯的

A模型過度擬合(Overfitting),導致在訓練資料上表現過好、泛化能力不足

字面在說什麼

過擬合是模型把訓練資料「背起來」,在訓練集上殘差很小,但在新資料上誤差大。

為什麼不對

過擬合的診斷方式是「訓練誤差 vs. 測試誤差的差距」,不是殘差圖的形狀。題目描述的是「殘差圖出現系統性彎曲」——這是非線性關係的症狀,不是過擬合的症狀。過擬合的殘差圖通常在訓練集上非常隨機(誤差接近零),不會出現系統性彎曲。

誰會選錯

看到「極大殘差」就想到「模型不準 → 過擬合」的人。記住:過擬合的模型在訓練集上太準了,殘差極小;題目說的是「殘差極大且彎曲」,這是違反迴歸假設,不是過擬合。

B模型特徵數量不足,導致欠擬合(Underfitting)

字面在說什麼

欠擬合是模型太簡單,捕捉不到資料的規律,整體誤差偏高。

為什麼不對

欠擬合會讓整體誤差偏高,但不會造成「只有高價區出現系統性彎曲」這種特定分佈。題目說的是高價區才有問題,其他區間模型表現正常——這是非線性關係的特徵(在某個值域才顯現),不是欠擬合(整體失效)。

誰會選錯

把「模型在某區間準確率低」和「欠擬合」混淆的人。欠擬合是模型整體表現差,而非「在特定值域系統性偏差」。

D殘差圖呈現隨機分佈,表示模型已完全符合所有假設

字面在說什麼

理想的殘差圖確實應該是隨機分佈的——這代表模型已捕捉所有系統性規律。

為什麼不對

題目明確說殘差圖「出現系統性彎曲」,這跟「隨機分佈」完全相反。選項 D 描述的是理想情況,而題目描述的是問題情況,完全不符合題目的觀察結果。

誰會選錯

讀題不仔細,沒注意到題目說的是「系統性彎曲」而非「隨機分佈」的人。這個選項是在考你是否真的理解了題目描述的情況。

06 變形

同個考點下次怎麼變形

變形 1

殘差圖呈「喇叭形」(越往右越散開),代表什麼問題?

直覺

誤差的大小隨著預測值的增加而增加,不是固定的。

答案

這是異方差(Heteroscedasticity)問題,違反了迴歸的「殘差方差均等」假設。常見解法是對目標變數做 Log 轉換(取對數),讓變異數相對穩定。這種情況在房價、收入等高度偏斜的資料中很常見。

變形 2

如何處理迴歸中的異常值?

直覺

直接刪掉?還是有更好的方式?

答案

處理異常值的方式依情況而定:(1)確認資料錯誤就刪除;(2)真實的極端值(如豪宅)可加入「豪宅類別」特徵,讓模型專門處理;(3)用對離群值不敏感的模型(如隨機森林、梯度提升);(4)用 Winsorization(縮尾處理)把極端值截斷到某百分位;(5)只刪除有資料品質問題的,不要無腦刪除所有離群點。

變形 3

非線性關係可以加入多項式特徵來解決嗎?

直覺

如果房價與坪數的關係是曲線而非直線,加入「坪數的平方」是不是就能解決?

答案

可以,這是多項式迴歸(Polynomial Regression)。加入特徵的高次項(坪數²、坪數³)讓線性迴歸能擬合曲線關係。但要注意:次數越高,越容易過擬合;通常配合正則化(Ridge/Lasso)使用,並用交叉驗證選擇合適的多項式次數。

變形 4

R² 很高(0.95),但殘差圖出現彎曲,模型可用嗎?

直覺

R² 代表模型解釋了 95% 的變異,這樣不是已經很好了嗎?

答案

R² 高不代表模型沒問題。高 R² 加上「殘差彎曲」代表模型在某些區域系統性偏差,可能對高房價的房子有固定方向的預測錯誤。商業決策要特別注意這種「整體看起來好,但在重要子群體上失效」的問題,這是資料科學實務中很常見的陷阱。

變形 5

Cook's Distance 是什麼,用來做什麼?

直覺

如何量化一個資料點對迴歸結果的影響力?

答案

Cook's Distance 衡量「如果刪掉這個資料點,迴歸係數會改變多少」。值越大代表這個點的影響力越強(有可能是異常值)。通常 Cook's Distance > 4/n(n 為樣本量)的點值得特別檢查。這是識別高影響力資料點的標準工具,比單純看殘差大小更全面。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二梯次 iPAS AI 應用規劃師 中級 科目三 機器學習技術與應用 第 24 題

查看官方原文 PDF