判定係數 是什麼?

R-squared — 判定係數 的完整解釋

判定係數(R-squared)衡量模型解釋目標變數變異的比例,數值介於 0 到 1 之間

容易混淆

R-squared vs 均方誤差 均方誤差看的是預測錯多遠。 R-squared 看的是模型解釋了多少變化。 最關鍵的區別:一個看誤差大小,一個看解釋比例。

R-squared vs 均方根誤差 均方根誤差和原始單位相同,容易直觀感受偏差大小。 R-squared 是比例值,方便看整體解釋能力。 最關鍵的區別:一個看距離,一個看比例。

R-squared vs 相關係數 相關係數看兩個變數是否一起升降。 R-squared 看模型對目標變數的解釋程度。 最關鍵的區別:一個看關聯,一個看模型表現。

記住這句就好

分數高不代表全對,只代表解釋得比較多。

實際案例

廣告投放分析 你用廣告費用預測銷售額,R-squared 高,表示廣告費用對銷售波動有一定解釋力。 但它不保證每筆預測都很準。

房價模型 房價模型的 R-squared 若偏低,可能代表還有很多重要變數沒放進去,例如地段、屋齡或樓層。 這時候要先想特徵,而不是只盯著分數。

算法與應用

R-squared 常由總變異和殘差變異的比例推得,簡單看就是模型把多少波動吃掉了。 它適合比較同一資料集上的迴歸模型,但不適合單獨拿來判斷一切。 如果模型太複雜,R-squared 可能很高,但也可能只是把訓練資料記太熟。

情境判斷

Q1(直覺題): 你想知道迴歸模型有沒有抓到目標變數的大方向,該看什麼?

→ 看 R-squared,因為它反映的是模型解釋變化的能力。

Q2(判斷題): 如果 R-squared 很高,模型就一定值得上線嗎?

→ 不一定,還要看誤差大小、資料外推表現和是否過擬合。

相關術語

常見問題

R-squared 一定在 0 到 1 之間嗎?

常見情況是如此,但某些模型或特殊定義下也可能出現負值。

R-squared 越高越好嗎?

通常越高代表解釋力越強,但也要一起看驗證集表現,避免只是在訓練集上過度擬合。

它可以拿來比不同資料集嗎?

不太適合,因為不同資料集的變異程度不同,分數不一定有同樣意義。