“ 统计学相关的知识,是数据科学的重要基础之一。”
之前咱们分享过很多数据应用相关的内容,从《用户画像》到《数据采集》、《BI系统》等等。今天开始系统分享一些和基础理论相关的内容,包括统计学、概率论等学科。
一、总体、样本与抽样
统计学,其实本质就是研究样本与总体的学科。
(1)关于总体
首先,什么是总体呢?
总体,就是我们想研究的对象的全体。比如,我们要研究淘宝的所有用户,那淘宝的所有7亿用户就是总体。总体用户中的每一个人,就是一个个体。
如果总体是有限个,就是有限总体,无限个就是无限总体。
对于总体,我们给出一个随机变量X,随机变量的分布就是总体分布。
(2)关于样本
研究总体的过程中,我们就发现一个问题,总体的数量往往过多。比如针对淘宝网所有用户,想研究所有用户的满意度,咋办?要一个一个人全部调查一遍嘛?显然不现实。这时就有了抽样以及样本的价值。
什么是抽样?
简单来说,抽样就是将总体中取一部分。比如全部淘宝用户抽1000人,这1000人就是样本,抽取的过程就是抽样。1000人就是样本大小,也叫样本容量。
对于抽了n个样本X1,X2,……Xn,我们通常用以下表示样本变量:
如果发生了抽样,那每个样本都有一个具体的值,比如样本X1的取值是x1,那我们就把x1叫观测值,全部样本的观测值则用以下表示:
总结而言,大写表示的是变量,小写表示的是确定的数值(因为已经抽取出来并测量了)。
(3)关于抽样
关于抽样,我们要求的是简单随机抽样。有以下几个要求:
当然了,简单随机抽样是比较理想的情况,实际操作中比较困难。
(4)样本的分布
由于样本的抽取是独立的,所以样本的概率函数就等于每个样本的联合概率分布。
二、统计量
了解了总体和样本,我们再看看看统计量。
(1)统计量的定义
首先看下定义:不含任何未知参数的样本的函数,就叫统计量。
说白了,统计量就是由我们取的样本、构造的一个不含未知参数的函数。函数可以是任意的,随意构造,只要保证不含未知参数即可(可以含已知参数)。
比如,我们求样本的和,求样本平方之后的和,这些都是统计量。
(2)常见统计量
这里介绍一下常见的统计量。
样本均值:
样本方差(修正过的):
注意,这里的样本方差是修正过的。细心的朋友应该也已经发现了,这里的系数分母是n-1(未修正的样本方差的分母是n,也是我们初中高中一直用的方差的定义)。修正的主要目的是为了使得样本方差是总体方差的无偏估计。关于无偏估计,后续再阐述。
样本标准差:
样本K阶原点矩:
当这里的k=1的时候,一阶原点矩就是均值。
样本K阶中心矩:
当这里的k=2的时候,就是未修正的样本方差。
三、样本均值和方差的性质
上面讲到了很多统计量,用的比较多的,其实依旧是样本均值和方差。因此,针对样本均值和方差的一些性质,进行详细阐述。
(1)样本均值的期望是总体均值
啥意思呢,举例说明。
假设全体7亿淘宝用户对网站的平均满意度是80分(这个是未知的),抽样了1000个淘宝用户,统计了这1000个用户每个人的满意度,并求均值。那这个样本均值的期望就应该等于80分。
(2)样本均值的方差是总体方差的n分之一
从这里,我们可以看出来。样本均值的方差比总体方差变小了。而且样本数量越大,均值的方差越小。为啥呢?
其实是这样。方差反映的是数据的波动程度。当我们选样本的数量越多的时候,那么越接近总体的数量,人数越多数据的波动性越小。这个道理也是比较容易理解的。
(3)样本方差的期望等于总体方差这里具体证明过程就不展开了。
关于总体、样本、统计量相关的内容,就先介绍到这。下回继续分享抽样分布相关的内容,欢迎继续关注。