描述性统计分析基本统计量大致可以分为3类:集中趋势的统计量、离散程度的统计量和总体分布的统计量。
1. 众数 Mo:数是一组数据中出现频数最多的变量值。众数也是一种位置平均数,不受极端数值的影响,在实际工作中应用较为普遍,在总体单位数较多,且具有明显的集中趋势时可以用众数表示集中趋势代表值。
2. 平均数 x:这里的平均数指的是算术平均数,也叫均值,它在统计学中具有重要的地位,是集中趋势的最主要测度值。
3. 中位数 Me:将一组数据按由小到大的顺序排列,居于中间位置的变量值即为中位数。中位数是位置平均数,它不受极端值的影响,在各变量值差异较大或频数分布为偏态时,中位数比算术平均数更具有代表性;在缺乏计量手段时,也可用中位数近似地代替算术平均数。
4. 平均差:指各个变量值同平均数的离差绝对值的算术平均数。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
1. 最大值:一组数中的最大值。
2. 最小值:一组数中的最小值。
3. 极差:一组数中最大值与最小值之差。
4. 方差:方差是各个变量值与其算术平均数的离差平方的算术平均数。方差的计量单位和量纲不便于从经济意义上进行解释,所以,实际统计工作中多用方差的算术平方根——标准差,来测度总体的离散程度。
5. 标准差:标准差又称均方差,具有量纲,与变量值的计量单位一致。
6. 25 分位:第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第 25%的数字。
7. 75 分位:第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第 75%的数字。
8. 四分位差(IQR):四分位差(quartile deviation),它是上四分位数(Q3,即位于 75%)与下四分位数(Q1,即位于 25%)的差。四分位差反映了中间 50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。
9. 异众比率:总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。异众比率主要适合测度分类数据的离散程度,当然,对于顺序的数据以及数值型数据也可以计算异众比率。它虽然也是一个反映离散程度的相对指标,但是与标准差系数不同。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
10. 标准误:sem,全称 Standard Error of Mean,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。标准误,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
11. 离散系数:离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
1. 峰度:峰度是分布集中趋势高峰的形状。
2. 偏度:偏度是对分布偏斜方向及程度的测度。
偏度 > 0,右偏;偏度 < 0,左偏;偏度=0,对称。绝对值大于 0,偏态;绝对值大于 1:高度偏态;绝对值 0.5-1 中等偏态。峰度 > 3,尖峰;峰度 = 3,正态;峰度 < 3,扁平。
step1:打开SPSSPRO免费数据分析网站,上传数据
step2:选择【描述性分析】,拖拽变量
step3:点击开始处理,完成操作
软件操作:
结果解读:
基于数学,变异系数(CV)为0.04,小于0.15,当前数据中较小概率出现异常值,建议采用平均值进行描述分析。
如果要描述数据集中在哪个位置,用集中趋势的统计量均值、中位数和众数等。
如果要描述数据的分散程度或散布范围,用离散程度的统计量方差、标准差、极差和离散系数。
如果要描述数据分布的形状,用偏度和峰度。
相关推荐