一、描述统计分析
描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
1、描述数据集的四个常用指标
(1)平均数(反映数据的一个集中趋势)
平均值=一组数据之和/数据个数
优点:充分利用了所有数据
缺点:对异常值的敏感性不强
(2)四分位数
将数据集由小到大排序,用三点将数据集等分为四等份,每等份占25%;三个点上对应的数值从小到大依次是下四分位数,中位数,上四分位数,记为Q1,Q2,Q3;其中Q1和Q3之间的距离为四分位距;
四分位数的应用:
1、不同类别数据的比较
2、通过估计值的范围,识别异常值;
最小估计值:Q1 – k(Q3 – Q1)
最大估计值: Q3 + k(Q3 – Q1) 注:K=1.5时,中度异常; K=3是,极度异常;
箱型图:统计分析中一般使用箱型图来反映原始数据的分布特征;箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR(下限)或大于Q3+1.5IQR的值(上限)
优点:更直观的理解四分位数,看出数据集的分布情况
缺点:无法看出数据集的波动情况
(3)标准差(衡量数据集的中数据的离散程度=波动大小)
标准差:方差的平方根。
标准差的意义:衡量一组数据的离散程度,以一组球员得分数据为例,其离散程度越大,稳定性越低,离散程度越小,稳定性越好。越小越好越小越好!
(4)标准分
定义:是一种由原始分推导出来的相对地位量数,它用来说明原始分在所属的那批分数中的相对位置的.简单说就是把你的成绩进行排名,通过对比知道成绩在整体中处于什么地位。
原始分反映 了考生答对题目的个数,或作答正确的程度。但是,原始分一般不能直接反映出考生间差异状况,不能刻划出考生相互比较后所处的地位,也不能说明考生在其他等值测试上应获得什 么样的分值。
意义:某个数值距离平均值多少个标准差,是不同数据集中数值进行比较的一种方法
使用:在使用原始分的省份,考生得知自己的各科分数和总分后,就要用各类学校录取分数线来衡 量自己的成绩是上何类分数线,进而估计自己大概能上哪一类学校。但是在估计中,由于不 能知道自己在全体考生中的位置,所以往往盲目性很大。
使用标准分数以后,考生很容易得知自己的总成绩和各科成绩所处的位置,然后根据各类学 校录取分数线在常模分数量表的位置,进而可以比较准确地估计和预测自己能上哪一类学校 ,把握有多大。
二、概率思维
概率用数值表示某件事情发生的可能性,在我们生活中对于风险投资等有很重要的作用。
一个事件的概率P = 满足要求的事件数目 / 所有等可能性事件的数目
小知识:赌徒谬论
指赌徒认为某个下注成功的可能性与之前的下注结果有关,相信下注成功的可能性会因之前没发生而越来越大,实际每场下注成功的可能性是不会因为之前没发生而增加,一切都是赌徒自我想象而已。
1、独立事件概率
2、相关事件概率
利用决策树求条件概率:
3、大数定律
通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
大数定律研究的是随机现象统计规律性的一类定理,当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近,最后的频率无限接近事件概率。就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。
大数定律有若干个表现形式,如高数中的切比雪夫大数定律、伯努利大数定律、辛钦大数定律。
(1)期望
期望的本质:概率的平均值
4、小数定律
概念:小数定律认为人类行为本身并不总是理性的,会根据主观意识进行定论,在不确定性情况下,人的思维过程会系统性地偏离理性法则而走捷径。
大多数人在判断不确定事件发生的概率时,往往会违背概率理论中的大数定律,而不由自主地使用“小数定律”,即滥用“典型事件”,忘记“基本概率”
小数定律是人有把从大样本中得到的结论错误地移植到小样本中的倾向。比如人们知道掷硬币的概率是两面各50% ,于是在连续掷出5个正面之后就倾向于判断下一次出现反面的几率较大。这一点已被大量的实验和证券市场上的错误预测所证实
5、墨菲定律
概念: 如果有两种或两种以上的方式去做某件事情,而其中一种选择方式将导致灾难,则必定有人会做出这种选择。通俗就是,任何事件,只要有大于0的概率,时间一长就一定会发生。
上一篇