单variables最小二乘回归中多重R平方和调整R平方有什么区别?

难道有人可以向统计学家解释Multiple R-squaredAdjusted R-squared之间的区别是什么? 我正在做一个单variables回归分析如下:

  v.lm <- lm(epm ~ n_days, data=v) print(summary(v.lm)) 

结果:

 Call: lm(formula = epm ~ n_days, data = v) Residuals: Min 1Q Median 3Q Max -693.59 -325.79 53.34 302.46 964.95 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2550.39 92.15 27.677 <2e-16 *** n_days -13.12 5.39 -2.433 0.0216 * --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 410.1 on 28 degrees of freedom Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451 F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216 

调整的R平方中的“调整”与variables的数量和观测的数量有关。

如果不断向variables中添加variables(预测variables),则R平方将会改善 – 也就是说,预测variables似乎可以解释变化 – 但是其中的一些改进可能仅仅是因为偶然性。 所以调整后的R平方试图通过考虑比例(N-1)/(Nk-1)(其中N =观测值的数量并且k =variables的数量(预测variables))对此进行校正。

这可能不是你的问题,因为你有一个单一的variables。

一些参考:

  1. R平方有多高?
  2. 合适的统计数字
  3. 多重回归
  4. 回复:什么是“调整R ^ 2”在多元回归

调整的R平方与R2的值接近但不同。 它不是基于解释的平方和SSR和总平方和SSY,而是基于总体方差(我们通常不计算的量),s2T = SSY /(n-1)和误差方差MSE (来自ANOVA表),并且如此计算:调整的R平方=(s2T-MSE)/ s2T。

这种方法提供了一个更好的基础,由于增加了一个解释variables来判断拟合的改善,但是它没有R2所具有的简单的总结解释。

如果我没有犯错,你应该validation调整的R平方和R平方的值如下:

 s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]]) MSE <- anova(v.lm)[[3]][2] adj.R2 <- (s2T - MSE) / s2T 

另一方面,R2是:SSR / SSY,其中SSR = SSY – SSE

 attach(v) SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2) SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2) SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2) R2 <- SSR / SSY 

R平方不依赖于模型中variables的数量。 调整的R平方是。

调整后的R平方加上了一个惩罚,用于向模型中添加与您试图解释的variables无关的variables。 你可以用它来testing一个variables是否与你试图解释的东西有关。

调整后的R平方是R平方,加上一些分割,使其依赖于模型中variables的数量。

请注意,除了预测variables的数量之外,上面的调整R平方公式还会针对样本大小进行调整。 一个小样本会给出一个看似很大的R平方。

殷平,范西涛,“实验教育杂志”69(2):203-224,“多元回归估计R平方收缩”比较了不同的r平方调整方法,得出以上常用的方法是不好。 他们推荐Olkin&Pratt配方。

但是,我已经看到一些迹象表明,人口规模比这些公式表明的影响大得多。 我不相信这些公式中的任何一个都足够好,可以比较不同样本量的回归(例如2000与200,000样本;标准公式几乎不会有基于样本量的调整)。 我会做一些交叉validation来检查每个样本的r平方。