描述统计及概率分析

一、描述统计分析

描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

  • 数据的频数分析:在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。
  • 数据的集中趋势分析:用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
  • 数据的离散程度分析:主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
  • 数据的分布:在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
  • 绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等 —-来自百度百科

1、描述数据集的四个常用指标

(1)平均数(反映数据的一个集中趋势)

平均值=一组数据之和/数据个数

优点:充分利用了所有数据

缺点:对异常值的敏感性不强

(2)四分位数

将数据集由小到大排序,用三点将数据集等分为四等份,每等份占25%;三个点上对应的数值从小到大依次是下四分位数,中位数,上四分位数,记为Q1,Q2,Q3;其中Q1和Q3之间的距离为四分位距;

四分位数的应用:

1、不同类别数据的比较

2、通过估计值的范围,识别异常值;

最小估计值:Q1 – k(Q3 – Q1)

最大估计值: Q3 + k(Q3 – Q1) 注:K=1.5时,中度异常; K=3是,极度异常;

箱型图:统计分析中一般使用箱型图来反映原始数据的分布特征;箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR(下限)或大于Q3+1.5IQR的值(上限)

优点:更直观的理解四分位数,看出数据集的分布情况

缺点:无法看出数据集的波动情况

(3)标准差(衡量数据集的中数据的离散程度=波动大小)

标准差:方差的平方根。

标准差的意义:衡量一组数据的离散程度,以一组球员得分数据为例,其离散程度越大,稳定性越低,离散程度越小,稳定性越好。越小越好越小越好!

(4)标准分

定义:是一种由原始分推导出来的相对地位量数,它用来说明原始分在所属的那批分数中的相对位置的.简单说就是把你的成绩进行排名,通过对比知道成绩在整体中处于什么地位。

原始分反映 了考生答对题目的个数,或作答正确的程度。但是,原始分一般不能直接反映出考生间差异状况,不能刻划出考生相互比较后所处的地位,也不能说明考生在其他等值测试上应获得什 么样的分值。

意义:某个数值距离平均值多少个标准差,是不同数据集中数值进行比较的一种方法

使用:在使用原始分的省份,考生得知自己的各科分数和总分后,就要用各类学校录取分数线来衡 量自己的成绩是上何类分数线,进而估计自己大概能上哪一类学校。但是在估计中,由于不 能知道自己在全体考生中的位置,所以往往盲目性很大。

使用标准分数以后,考生很容易得知自己的总成绩和各科成绩所处的位置,然后根据各类学 校录取分数线在常模分数量表的位置,进而可以比较准确地估计和预测自己能上哪一类学校 ,把握有多大。

二、概率思维

概率用数值表示某件事情发生的可能性,在我们生活中对于风险投资等有很重要的作用。

一个事件的概率P = 满足要求的事件数目 / 所有等可能性事件的数目

小知识:赌徒谬论

指赌徒认为某个下注成功的可能性与之前的下注结果有关,相信下注成功的可能性会因之前没发生而越来越大,实际每场下注成功的可能性是不会因为之前没发生而增加,一切都是赌徒自我想象而已。

1、独立事件概率

2、相关事件概率

利用决策树求条件概率:

3、大数定律

通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。

大数定律研究的是随机现象统计规律性的一类定理,当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近,最后的频率无限接近事件概率。就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。

大数定律有若干个表现形式,如高数中的切比雪夫大数定律、伯努利大数定律、辛钦大数定律。

(1)期望

期望的本质:概率的平均值

4、小数定律

概念:小数定律认为人类行为本身并不总是理性的,会根据主观意识进行定论,在不确定性情况下,人的思维过程会系统性地偏离理性法则而走捷径。

大多数人在判断不确定事件发生的概率时,往往会违背概率理论中的大数定律,而不由自主地使用“小数定律”,即滥用“典型事件”,忘记“基本概率”

小数定律是人有把从大样本中得到的结论错误地移植到小样本中的倾向。比如人们知道掷硬币的概率是两面各50% ,于是在连续掷出5个正面之后就倾向于判断下一次出现反面的几率较大。这一点已被大量的实验和证券市场上的错误预测所证实

5、墨菲定律

概念: 如果有两种或两种以上的方式去做某件事情,而其中一种选择方式将导致灾难,则必定有人会做出这种选择。通俗就是,任何事件,只要有大于0的概率,时间一长就一定会发生。

发表回复

相关推荐

赤膊上陣的意思,赤膊上陣成語故事及出處

【赤膊上陣的出處】赤膊上陣,出自明朝羅貫中所著的《三國演義》第五十九回:“許褚性起,飛回陣中,卸下盔甲,渾身筋突,赤體...

· 3分钟前

展覽展示中的物理互動裝置

如果沒有對展館的熱愛、思考和總結,大約是無法花一個多月的時間一幀一幀地將這些物理互動裝置畫出來並分享給大傢的,感謝王...

· 10分钟前

老公入贅洗衣做飯,吃我的喝我的,還在外面找女人

——唐思琪是獨生女,祖上是殺豬起傢的。父母四十多歲才生瞭她,從小把她捧在手心。她記事後就成天到晚跟著父親唐明強屁股後面...

· 11分钟前

西海岸新區哪裡買房最安全?這份官方文件給出瞭答案!

我們知道,西海岸新區面積很大,大到比深圳市還要多99平方公裡;西海岸新區的常住人口卻稍顯不足,隻有深圳的10%。所以,西海...

· 12分钟前

麦场要来了

有人知道什么是“麦场”吗? 我是皖西北农村里的娃,今年三十出头。“麦场”是儿时重要的记忆,说到麦场就离不开雪檬、皮蛋、架 ...

· 12分钟前