决定系数R2真的可靠吗?

1. R2

1) 含义:

反应回归模型拟合数据的优良程度

2)分析

实际信息:点的实际值 减去 均值 认为是 这个点的实际信息(蓝色条),可以拆分成下面两部分

误差信息:实际值减线上的点的值,这是未拟合出来的信息(黄色条)

拟合出的信息:拟合出来的线上的点 减 均值 (红色条)

对于一个模型来说:误差信息越短,拟合出的信息越长,拟合效果越好。

拟合优度涉及的三个指标: SST, SSE, SSR

1. SST:总体平方和,它的大小描述了数据集中的数的分散程度

2. SSE:残差平方和

3. SSR:回归平方和,拟合数据的分散情况

R方的范围是 (-infty,1]

2. 是否可以通过比较R方大小,来证明“加入某个变量有利于提高模型的拟合程度”?

在大多数模型中(包括线性模型),加入某个自变量之后,R方保持不变或增加,即使该变量对因变量的相关性或者预测能力很差。直观理解是,模型可能对数据过度拟合,出现了虚假的模型改进。因此,以R方增加来判断新加入变量对模型的贡献,不合适。

为了解决这个问题,可以用adjusted R squared。这个指标同时考虑了R方和变量个数,如果新加入变量的贡献小于已有变量的“平均贡献”,则adjusted R squared会随着变量加入而减小。

3. 调整后的R2

在样本容量一定的情况下,增加解释变量必定使得自由度减少

目的:在模型的复杂程度和衡量模型的优良程度上取一个平衡

  让模型趋于简单(模型复杂之后 会使预测受到一定限制:过拟合)

  所以注意!多元统计要用调整后的R2来衡量

具体操作:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响

或者写成:

n是样本的个数,p是变量的个数

4. R方不能支持模型的哪些假设?

R方并不能用于说明以下的假设是否成立[2]

  • 模型中的自变量是因变量产生变化的原因。
  • 模型存在omit-variable bias,即忽略了某个重要自变量导致出现偏差。
  • 所选用的回归模型是合理的。
  • 所选用的自变量集合是最合理的。
  • 自变量之间不存在共线性。
  • 如果对自变量进行变换,模型的拟合程度将会提升。
  • 选用的数据量足够用于得到有说服力的结论。

因此,如果你在定量研究中得到了很高的R方,恭喜你得到了不错的结果,但这并不是研究的最终目的。为了说明模型的可用性,需要从其他方面进行讨论和验证。很多时候,画出预测值 vs. 真实值的散点图,可以提供直观的判断。

5. R2和调整后的R2调用方法

from sklearn.metrics import r2_score#R square
R2:r2_score(y_test,y_predict)
Adjusted_R2::1-((1-r2_score(y_test,y_predict))*(n-1))/(n-p-1)

<< · Back Index ·>>

发表回复

相关推荐

话说打不死的小强

话说“打不死的小强” 前几年,网络上有个热点词语:打不死的小强。其寓意泛指小强(又叫蟑螂)因生命力顽强久灭不绝!它有时 ...

· 1分钟前

受够了WIN10自动更新?阿虚教你一键禁止!

遇到不少粉丝在问了,所以今天出个一键式禁止Win10更新教程

· 3分钟前

超有用的科普知识,看了帮助你一生

油盐酱醋,百般味道~在我们的厨房中,酱油早已是必不可少的调味品。从改革开放前的散装酱油到后来的袋装酱油,高鲜酱油,到 ...

· 3分钟前

胡葵葵主任科普:為什麼要做小陰唇縮小術?

隨著人們生活水平的不斷提高,求美者對美的要求越來越高,她們已經不僅僅局限於對面部、胸部和身材整形有需求,越來越多的女...

· 4分钟前

【全国植发医院医生数据库】口碑、价格、案例免费自助查询

【查询范围】 先天发际线高、脂溢性脱发/雄脱、永久性斑秃、外伤、烧伤等瘢痕性缺失、眉毛、胡须等艺术种植 公立三甲医院、 ...

· 6分钟前