統計學復習筆記

第1章 總論

1. 總體:是指客觀存在的、在同一性質基礎上結合起來的許多個別事物(單位)組成的整體。

2. 總體單位:構成總體的各個事物。也稱個體。

3. 總體特征:

(1)大量性:總體必須是許多個別單位結合組成。

(2)同質性:構成總體的所有單位在主要性質上必須相同的。

(3)變異性:構成總體的大量個別事物,至少在某些方面存在差異性。

4. 標志:是說明總體單位屬性或特征的名稱。

5. 標志表現:是總體單位在標志上具體表現的屬性或數量

(1)品質標志:說明總體單位質的特征的名稱。

例如,企業的經濟類型、主管單位;學生的姓名、性別、文化程度等都是品質標志。品質標志的標志表現一般是文字。

(2)數量標志:說明總體單位量的特征的名稱。

例如,企業的銷售收入、利潤總額、占地面積、產品產量、納稅額等都是數量標志。數量標志的標志表現為數值。數量標志的標志表現稱為標志值。

6. 統計指標:是說明總體數量特征的概念及其具體數值(標志加標志值)。

7. 指標與標志的區別

(1)標志是說明總體單位特征的;指標是說明總體特征的。

(2)標志中的品質標志不能用數量表示;而所有的指標都能用數量表示。

8. 變量:說明現象某種特征。(指標名稱、數量標志和品質標志都可以是變量)

9. 數據:變量的具體表現稱為變量值,即數據。

10. 變量的分類(根據計量尺度分)

(1)分類變量:說明事物類別的變量,如性別。

(2)順序變量:說明事物有序類別的變量。如受教育程度。

分類變量和順序變量都是對事物質的屬性的界定,所以又稱為定性變量。

(3)數值型變量:說明事物數字特征的變量,如成績,商品銷售額。

11. 尺度根據對研究對象計量的不同精確程度,分為四個層次。

定類尺度;定序尺度;定距尺度;定比尺度。

第2章 統計數據的收集、整理與顯示

1.數據調查方式

(1)統計報表:按照國傢或上級部門統一規定的表式、指標、報送時間和程序要求,自上而下佈置、自下而上逐級提供統計資料的一種調查組織方式。

(2)普查:普查是為某一特定目的而專門組織的一次性全面調查。

(3)抽樣調查:從調查對象的總體中隨機抽取一部分單位作為樣本進行調查,並根據樣本調查結果推斷總體數量特征。

(4)重點調查:為瞭解總體基本情況,隻選擇一部分重點單位進行調查的一種非全面調查組織方式。

(5)典型調查:從調查對象的全部單位中選擇一個或幾個有代表性的單位進行調查。

2. 統計分組的原則

(1)科學性原則:組間差異大,組內差異小。

(2)完備性原則:每一個單位都應有組可歸。

(3)互斥性原則:任何單位隻能歸屬於某一組。

3. 統計分組的種類

(1)按分組標志的性質不同,有品質標志分組和數量標志分組。

(2)按分組標志的多少,有簡單分組和復合分組。

4. 分佈數列:在分組的基礎上,計算各組的總體單位出現的次數或頻數所形成的數列。稱為次數分佈數列,也叫頻數分佈、次數分佈。

5. 頻數分佈表的編制

(1)使原始數據序列化,計算全距R

(2)確定組數,K=1+lgN/lg2=1+3.322lgN

(3)確定組距,可根據全距及組數來確定I=R/K

第3章 數據特征的描述

1. 數值平均數

算術平均數

調和平均數

幾何平均數

2. 位置平均數

(1)中位數Me

(2)眾數Mo

組距式數列的眾數

(3)四分位數:第一四分位數(又稱下四分位數)指的是排序後處於25%位置上的變量值;第三四分位數(又稱上四分位數)指的是排序後處於75%位置上的變量值。

第4章 抽樣與抽樣分佈

1. 全及總體和樣本總體

(1)全及總體

研究對象的全體。全及總體中所包括的單位數一般用N表示。

(2)樣本總體

按隨機原則從全及總體中抽取一部分單位組成的集合體,又叫抽樣總體。

樣本總體中所包括的單位數叫樣本容量,一般用n表示。

大樣本(n≥30)和小樣本(n≤30)。

2. 全及指標:指被估計的總體指標,又被稱為總體參數。

設總體N中個總體單位某項標志的標志值分別為 ,其中具有某種屬性的有N1個單位,不具有某種屬性的有N0個單位,則

(1) 總體平均數(又叫總體均值):

(2) 總體標準差:

(3) 總體方差:

(4) 總體比例:

3. 樣本指標

指根據樣本單位的標志值計算的用以估計和推斷相應總體指標的綜合指標,又被稱為估計量或統計量。

設樣本中n個樣本單位某項標志的標志值分別為 ,其中具有和不具有某種屬性的樣本單位數目分別為n1和n0個,則

(1) 樣本平均數(又叫樣本均值)

(2) 樣本比例

(3) 樣本單位標志值的標準差

8ec7096db0225d00730326230a40f994

(4) 樣本單位標志值的方差

4. 抽樣誤差:又稱隨機誤差或代表性誤差,是遵循隨機原則抽樣而產生的樣本指標(抽樣估計值)與總體相應指標的離差。(按隨機原則抽樣時,由於抽到的樣本不同,會得到不同的樣本指標,具有隨機性和偶然性,這種誤差是抽樣調查本身所固有的、無法避免的誤差,這部分誤差數值大小不同。)

5. 影響抽樣誤差的因素

(1)抽樣單位的數目(樣本容量)

個體數目越多,誤差越小

(2)總體被研究標志的變異程度

總體的方差和均方差越大,抽樣誤差就越大,反之,誤差越小。

(3)抽樣方法的選擇

不重復抽樣比采用重復抽樣的抽樣誤差小

(4)抽樣組織方式不同

利用抽樣誤差,作為判斷各種抽樣組織方式的比較標準

6. 抽樣技術比較

第5章 參數估計

1. 點估計:用樣本的估計量直接作為總體參數的估計值。

2. 估計量與估計值

估計量:用於估計總體參數的隨機變量,也是樣本統計量。

如樣本均值,樣本比率、樣本方差等。

總體參數用 表示,估計量用 表示。

估計值:估計參數時計算出來的樣本統計量的具體值。

3. 評價估計量的標準

無偏性:估計量抽樣分佈的數學期望等於被估計的總體參數。(無偏估計不唯一)

有效性:對同一總體參數的兩個無偏點估計量,有更小標準差的估計量更有效。

一致性:隨著樣本容量的增大,點估計的值會越來越接近被估計的總體參數。

4. 區間估計:在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間由樣本統計量加減允許誤差而得到。

5. 置信區間:由樣本統計量所構造的總體參數的估計區間稱為置信區間。

6. 置信水平:將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比率稱為置信水平。表示為 1-α。

7. 影響區間寬度的因素

6e8945a5373da9b09de6b7b749cd9c33

8. 總體均值的區間估計

(1)假定條件:

總體服從正態分佈,且方差未知。(大樣本)

總體服從正態分佈,且方差已知。(小樣本)

不是正態分佈,可由正態分佈來近似 (大樣本)

總體均值μ在1-α置信水平下的置信區間為

(2)假定條件:

總體服從正態分佈,且方差未知。(小樣本)

t分佈期望為:E(t)=0,方差為:D(t)=n/n-2 。

總體均值μ在1-α置信水平下的置信區間為

9. 總體比率的區間估計

假定條件:總體服從二項分佈,可以由正態分佈來近似。

總體比率Π在1-α置信水平下的置信區間為

10. 總體方差的區間估計

假設條件:總體服從正態分佈。

總體方差在1-α置信水平下的置信區間為

11. 一個總體參數的區間估計

第6章 假設檢驗

1. 假設檢驗的基本概念:事先對總體參數或分佈形式作出某種假設,然後利用樣本信息來以一定的概率判斷原假設是否成立。

2. 假設檢驗的作用:一般是對有差異的數據進行檢驗,判斷差異是否顯著(概率)。如果通過瞭檢驗,不能拒絕原假設,說明沒有顯著差異,那麼這種差異是由抽樣造成的。如果不能通過檢驗,則拒絕原假設,說明有顯著差異,這種差異是由系統誤差造成的。證偽不能存真。

3. 原假設:一般研究者想收集證據予以反對的假設。表示為H0。

4. 備擇假設:一般研究者想收集證據予以支持的假設。表示為H1。

5. 由於假設檢驗中隻有在小概率事件發生的情況下才拒絕原假設,因此在假設檢驗過程中是保護原假設的。

6.

7. 兩類錯誤

(1)第Ⅰ類錯誤(棄真錯誤):原假設為真時拒絕原假設。

第Ⅰ類錯誤的概率記為α,被稱為顯著性水平

(2)第Ⅱ類錯誤(取偽錯誤):原假設為假時未拒絕原假設。

第Ⅱ類錯誤的概率記為β

第7章 方差分析

1. 數據的誤差用平方和(sum of squares)表示,記為SS

2.總誤差平方和(sum of squares for total)記為SST

3. 組內平方和或誤差項平方和(within groups)記為SSE

4. 組間平方和或水平項平方和(between groups)記為SSA

5. 總誤差=系統誤差+隨機誤差;SST=SSA+SSE

6. 各誤差平方和的大小與觀測值的多少有關,為消除觀測值多少對誤差平方和大小的影響,需要將其平均,這就是均方,即方差;

(1)方差等於平方和除以相應的自由度

(2)SST 的自由度為n-1,其中n為全部觀測值的個數;

(3)SSA 的自由度為k-1,其中k為因素水平的個數;

(4)SSE 的自由度為n-k;

(5)組內平方和除以相應的自由度稱為組內方差MSE;組間平方和除以相應的自由度稱為組間方差MSA;判斷原假設是否成立,就是判斷組間方差與組內方差是否有顯著差異。

7. 檢驗統計量F

8. 基本假定

(1)每個總體都應服從正態分佈

(2)各組觀察數據是從具有相同方差的總體中抽取的

(3)觀察值是獨立的

第8章 相關與回歸

1. 總體相關系數:

對於所研究的總體,表示兩個相互聯系變量相關程度的總體相關系數為:

2. 樣本相關系數:

通過x和y 的樣本觀測值去估計變量x和y的樣本相關系數為:

3. 相關系數r的假設檢驗:

利用t檢驗,自由度ν=n-2

4. 相關分析與回歸分析的聯系與區別

5. 一元線性回歸的基本假定

假定1:零均值假定。

假定2:同方差假定。

假定3:無自相關假定。

假定4:隨機擾動與自變量不相關。

假定5:正態性假定。

6.回歸系數:

7. 可決系數

51024e763337f3db3c5d2d0f160755c7

第9章 時間序列

1. 時間序列(時間數列、動態數列):將同一統計指標的數值按其發生的時間先後順序排列而成的數列。

2. 時間序列的種類:

(1)絕對數時間序列(總量指標時間序列):把反映某一現象的總量指標數值按時間先後順序排列而形成的序列,主要反映該現象在各個時間上達到的絕對水平。

(2)相對數時間序列:是將某一相對數指標的一系列數值按時間先後順序排列而成的,反映社會經濟現象之間相互聯系的變化過程。

(3)平均數時間序列:是將同一平均數指標在不同時間上的數值按時間先後順序排列而形成的序列,反映現象總體的一般水平和發展變化的過程。

3. 時間序列的構成因素:

(1)長期趨勢:時間序列的主要構成因素,它是指現象在較長時期內持續發展變化的一種趨向或狀態。

(2)季節變動:對一年內或更短的時間內由於社會、政治、經濟、自然因素影響,形成的以一定時期為周期的有規則的重復變動。

(3)循環變動:某種現象在比較長的時期內呈現出的有一定規律性的周期性波動。循環變動是有漲有落的交替波動。其周期長短很不一致,規律性不甚明顯,通常較難識別。

(4)不規則變動:時間序列分離瞭長期勢、季節變動、循環變動以後的波動。不規則變動由那些影響時間序列的短期的、不可預期的和不重復出現的眾多偶然因素引起,呈現為無規則的隨機變動。

第10章 統計指數

1. 統計指數的分類

(1) 數量指標指數:反映數量指標(q)變動的相對數。

(2) 質量指標指數:反映質量指標(p)變動的相對數。

2. 綜合指數是通過引入一個同度量因素把不能加總的現象轉化為可加總的總量指標,然後對比兩個總量指標所得到的相對數。

3. 基期加權綜合指數——拉式公式

4. 報告期加權綜合指數——派氏公式

发表回复

相关推荐

柳岩=摔跤女王?一年一摔的她,每次都有“走光”故事…

来源:8号风暴 原文:柳岩=摔跤女王?一年一摔的她,每次都有“走光”故事…” 问:女明星们走红毯时,最怕遇到什么突发情 ...

· 7秒前

除了kindle,还有什么阅读神器(电子产品、app)值得推荐?

不知道现在小伙伴们读书是通过那种形式,我是从两年前就彻底投入了电子书的怀抱。为了长期看书护眼,也入手了一些墨水屏的电 ...

· 1分钟前

项目管理到底是一个什么样的职位,具体做些什么事情?(看完即懂)

首先明白项目的概念: 点击链接即可一起交流学习,领取项目管理模板和知识地图: 那项目管理是什么? 项目管理就是运用专门 ...

· 2分钟前

東北大學新生攻略

全文7000+字…如果覺得有用請點贊 目錄1 學習相關 1.1 成績相關攻略 1.1.1 GPA/績點 1.1.2 培養計劃 1.1.3 考試攻略 1.1 專業...

· 4分钟前

乡村振兴,落地层面的“五大振兴”

相信对于乡村振兴政策上的二十字方针、五大振兴(产业振兴、人才振兴、文化振兴、生态振兴、组织振兴),大家能倒背如流。但 ...

· 6分钟前