統計學中幾個基本概念
統計數據的計量尺度
統計數據:是對客觀社會經濟現象進行計量的結果。
1. 定類尺度:也稱類別尺度或列名尺度,是按照現象的某種屬性對其進行平行的分組或分類。是最粗略、計量層次最低的計量尺度。
2. 定序尺度:又稱順序尺度,是對現象之間的等級差或順序差別的一種測度。可以確定類別的優劣或順序
3. 定距尺度:也稱間隔尺度,是對現象類別或次序之間間距的測度。能進行排序以及準確地指出類別之間的差距是什麼。
4. 定比尺度:,也稱為比率尺度,比定距尺度高一個層次,可以計算兩個測量值之間的比值,其計算結果也表示為數值。
上述四種尺度對現象的測量層次是由低級到高級 、由粗劣到精確逐步遞進的。
統計總體和總體單位
總體 即統計總體,是指客觀存在的、在同一性質基礎上結合起來的許多個別事物的整體。
總體單位(簡稱單位)是組成總體的各個個體。
例如:要研究全國城鎮居民的收支情況,就以全國城鎮居民作為一個總體,每一個居民為總體單位。
總體的特點:1同質性:是確定總體的前提和基礎。它是根據統計的研究目的而定的。
大量性 :統計總體應該由足夠數量的同質性單位構成(必要條件)。
差異性 :構成總體的各個同質性單位的特征存在著差異(前提和內容)。
註:構成中提的單位必須是同質的,不能把不通知的單位混在總體之中。
總體與總體單位具有相對性,隨著研究任務的改變而改變。同一研究對象,在一種情況下為總體,但在另一情況下又可能變成單位。
1、組距計算公式
①連續組距式分組:組距=本組上限-本組下限
②間斷組距式分組:組距=本組上限-本組下限+1
全距:分組數列中最大值的上限與最小值的下限之差
組中值: 組的上限和下限的中間值
2、組中值的計算
①同時有上限、下限的組:組中值=(上限+下限)/ 2
②缺下限最小組:組中值=上限-相鄰組組距 / 2
③缺上限最大組:組中值=下限+相鄰組組距 / 2
等距數列 等組距=全距/組數
異距數列 次數密度=各組次數/各組組距
頻數密度=各組頻率/各組組距
平均指標
平均指標的概念:又稱平均數,平均指標是說明同質總體內某一數量標志在一定歷史條件下一般水平的綜合指標。
特點:1、將數量差異抽象化(數量標志)
2、隻能就同類現象計算
3、能反映總體變量值的集中趨勢
集中趨勢:是指一組數據向某一中心值靠攏的程度,它反映瞭一組數據中心點的位置所在
平均數的類型:數值平均數(算術平均數、調和平均數、幾何平均數) 位置平均數(眾數、中位數、四分位數)
算術平均數的基本公式=總體標志總量÷總體單位總數
算數平均數的數學性質(P59-60)
①算術平均數 與 標志值個數的乘積等於各標志值總和;②各標志值與算術平均數離差之和等於零;③各標志值與算術平均數離差的平方和為最小值
調和平均數
調和平均數又稱“倒數平均數”,它是各個變量值倒數的算術平均數的倒數。
由相對數求平均數
(1)明確相對數的分子、分母指標是什麼,即相對數由哪兩個指標對比形成。
(2)已知相對數的分子、分母指標時,用分子指標總數除以分母指標總數即為相對數的平均數。
(3)已知相對數的分子指標時,以分子指標為權數,采用加權調和平均數計算相對數的平均數;已知相對數的分母指標時,以分母指標位為權數,采用加權算術平均數計算相對數的平均數
(4)加權平均所采用的權數必須是相對數本身的分子或分母指標。
幾何平均數
(1)幾何平均數是N個變量值乘積的N次方根
幾何平均數的對數是各變量值對數的算術平均。
幾何平均主要用於計算比率或速度的平均
①應用條件
a.變量值是相對數據,如比率或發展速度。
b.變量值的連乘積等於總比率或總發展速度。
②特點
a.如果數列中有一個標志值等於零或負值,則無法計算。
b.受極端值影響較小,故較穩健。
位置平均數(是根據標志值的位置來確定的):①眾數;②中位數
中位數(Median)中位數是一組數據按大小排序後,處於中間位置上的變量值。
中位數的求法
1、由未分組資料確定中位數:①先將總體各單位的標志值按照大小順序排列。②然後找出中位數。當總體單位數N為奇數時,中位數位置=(N+1)/2;為偶數時,中位數位置=處於中間位置的兩個單位標志值的算術平均數。
2、由單項式分組資料確定中位數)
3、由組距式分組資料確定中位數
眾數(Mode)
眾數是一組數據中出現次數最多的變量值。
眾數的求法
1、由單項式分配數列確定眾數:出現次數最多的標志值就是眾數。
2、由組距式分配數列確定眾數:①先確定眾數組。等距分組條件下,次數最多的那一組為眾數組;不等距分組條件下,頻數密度或 頻率密度最高的那一組為眾數組。②通過公式計算眾數的近似值。
四分位數(Quartile)
分位數是將總體的全部數據按大小順序排列後,處於各等分位置的變量值。如果將全部數據分成相等的兩部分,它就是中位數;如果分成四等分,就是四分位數;八等分就是八分位數等。四分位數也稱為四分位點,它是將全部數據分成相等的四部分,其中每部分包括25%的數據,處在各分位點的數值就是四分位數。四分位數有三個,第一個四分位數就是通常所說的四分位數,稱為下四分位數,第二個四分位數就是中位數,第三個四分位數稱為上四分位數,分別用Q1、Q2、Q3表示[1] 。
第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。
第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列後第50%的數字。
第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距(InterQuartileRange,IQR)。
測定標志變動度的方法:全距、平均差、標準差
極差(又稱全距,Range)是總體各單位標志的最大值和最小值之差,用以說明標志值變動范圍的大小
方差 與 標準差
方差:
標準差:
(1)總體數量標志的方差與標準差
①未分組方差、標準差、已分組
②方差與標準差是測定標志變異程度最常用、最靈敏的指標
③總方差、組間方差、組內方差
④方差與標準差的五個重要性質
下一篇