1.什么是相关关系
相关关系指多个变量间的变化有关联,其按某种规律在一定范围内变化的关系。有相关性、哪怕是很强的相关性也不能代表因果关系,我们只能依据相关的情况推测。
相关关系在生活中最广泛,几乎涵盖了生活中的方方面面,很多人也会把相关关系当作因果关系。
下面这两个非常好的笑话可以帮助理解相关关系与因果关系的差别:
①家门前的大树年年长大,国家经济年年增高,所以这棵大树影响国家经济。
②每年都有大量去过医院的人生病,所以医院和生病有相关关系,那是不是大家都不去医院就不会生病了?
大家都知道,不管经济持平还是下降,大树都会长大或者死亡,并不存在因果关系;正是由于人生病了要去医院,所以医院才有那么多病人,但是这并不代表“去医院”是“生病”的原因。
2.相关关系的分类
(1)按方向
①正相关:两个变量的变化趋势相同,一个变量随别的变量的增减而增减;
②负相关:两个变量的变化趋势相反,一个变量随别的变量的增减而减增。
(2)按程度
①完全相关:一个变量的变化由另一个变量的变化确定,即函数关系;
②不完全相关:若两个变量的变化互相独立,则这两个变量不相关;不完全相关指两个变量间的关系介于不相关和完全相关之间。
(3)按变量的数量
①单相关:相关关系只反映一个自变量和一个因变量;
②复相关:反映两个及两个以上的自变量同一个因变量的相关关系;
③偏相关:研究因变量与两个或多个自变量相关时,如果把其余的自变量看作常量,只研究因变量与其中一个自变量之间的相关关系。
生活中常见的相关关系包括人的身高和体重、云的重量和降雨等,相关问题会出现在业务发展的方方面面,只有知道了哪些因素和最终的结果有怎样的关联,我们才能去优化、影响结果。在相关分析中,最重要的就是相关方向及相关程度。
3.相关性分析步骤
大家对相关性应该有一定的了解了,那具体应该怎么做呢?
(1)计算相关系数
首先处理好数据集,让数据格式规范。如果用excel的话,就选中你要分析相关性的变量,用correl()或pearson()函数,如:correl(B2:B20,C2:C20),这两个函数只是计算公式不同,结果是一样的;用Excel中的“数据”-“数据分析”-“相关系数”这个步骤也可以。
如果用的是python,就先导入数据集,然后用.corr()函数计算,它可以看到导入数据的任意两个变量间的相关性。
如果两个变量间的变化一致,则相关系数r>0,变化方向相反,则r<0;变量间无线性关系则r=0,但要注意,无线性关系不代表不存在关系,其他情况就可以做拟合、回归的计算。
|r|>0.95 存在显著性相关;
|r|≥0.8 高度相关;
0.5≤|r|<0.8 中度相关;
0.3≤|r|<0.5 低度相关;
|r|<0.3 关系极弱,一般认为不相关。
还可以检验r的显著性,判断r的可靠程度。
(2)数据可视化:散点图
一般可以通过散点图了解变量间的大概关系。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点;如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
一个简单的相关性分析的步骤就像上面那样,如果大家有需求,回头可以做一个实例或者做更多的相关分析。
上一篇