判定係數 是什麼?
R-squared — 判定係數 的完整解釋
判定係數(R-squared)衡量模型解釋目標變數變異的比例,數值介於 0 到 1 之間
容易混淆
R-squared vs 均方誤差 均方誤差看的是預測錯多遠。 R-squared 看的是模型解釋了多少變化。 最關鍵的區別:一個看誤差大小,一個看解釋比例。
R-squared vs 均方根誤差 均方根誤差和原始單位相同,容易直觀感受偏差大小。 R-squared 是比例值,方便看整體解釋能力。 最關鍵的區別:一個看距離,一個看比例。
R-squared vs 相關係數 相關係數看兩個變數是否一起升降。 R-squared 看模型對目標變數的解釋程度。 最關鍵的區別:一個看關聯,一個看模型表現。
記住這句就好
分數高不代表全對,只代表解釋得比較多。
實際案例
廣告投放分析 你用廣告費用預測銷售額,R-squared 高,表示廣告費用對銷售波動有一定解釋力。 但它不保證每筆預測都很準。
房價模型 房價模型的 R-squared 若偏低,可能代表還有很多重要變數沒放進去,例如地段、屋齡或樓層。 這時候要先想特徵,而不是只盯著分數。
算法與應用
R-squared 常由總變異和殘差變異的比例推得,簡單看就是模型把多少波動吃掉了。 它適合比較同一資料集上的迴歸模型,但不適合單獨拿來判斷一切。 如果模型太複雜,R-squared 可能很高,但也可能只是把訓練資料記太熟。
情境判斷
Q1(直覺題): 你想知道迴歸模型有沒有抓到目標變數的大方向,該看什麼?
→ 看 R-squared,因為它反映的是模型解釋變化的能力。
Q2(判斷題): 如果 R-squared 很高,模型就一定值得上線嗎?
→ 不一定,還要看誤差大小、資料外推表現和是否過擬合。
相關術語
常見問題
R-squared 一定在 0 到 1 之間嗎?
常見情況是如此,但某些模型或特殊定義下也可能出現負值。
R-squared 越高越好嗎?
通常越高代表解釋力越強,但也要一起看驗證集表現,避免只是在訓練集上過度擬合。
它可以拿來比不同資料集嗎?
不太適合,因為不同資料集的變異程度不同,分數不一定有同樣意義。