回歸分析的過去繞不開高爾頓。正是高爾頓提出瞭“回歸”這一概念。但最初,他的興趣並不在這裡。
高爾頓出生於1822年2月16日。1844年,也就是他22歲時,父親去世,留下一大筆財產。從此,他放棄學醫,轉而追隨自己的激情——旅行。高爾頓曾經兩次去非洲探險,一次是沿著尼羅河往上到達喀土穆,一次是在非洲西南部的瓦爾維斯灣登陸,為瞭找到通往恩加米湖的新通道。根據自己的旅行探險經歷,高爾頓在《熱帶非洲》雜志上發表文章,還寫瞭一本旨在為探險傢提供建議的書《旅行的藝術》。
1859年,查爾斯·達爾文的《物種起源》出版。這成為高爾頓興趣的轉折點。他相信,人類的很多特質和能力是遺傳決定的。高爾頓沒有止於想法,而是開始收集數據來證實自己的想法。事實上,高爾頓是最早使用問卷和調查方法的人之一,他的思想對統計學發展也產生瞭巨大影響。在對遺傳數據的研究中,他提出瞭“回歸(regression)”的概念。
1875年,高爾頓將7種不同直徑的豌豆種子分發給7個朋友。等這些種子長出新豌豆後,朋友們又將新豌豆給回高爾頓。之所以選擇豌豆,是因為豌豆是一種自花授粉的植物,這使得高爾頓可以研究單一來源的影響。高爾頓測量瞭母豌豆及其子豌豆的直徑:大豌豆的後代直徑也更大,小豌豆的後代直徑更小。這驗證瞭高爾頓的想法。但高爾頓發現瞭一個格外有意思的現象,他稱之為“回歸平庸”(regression towards mediocrity,):大豌豆的後代的中位直徑小於母豌豆的中位直徑,向同代的中位直徑回歸;而小豌豆的後代的中位直徑大於母豌豆的中位直徑,同樣向同代的中位直徑回歸。高爾頓的父親曾經向他展示過非常細致的圖表。受父親的影響,高爾頓繪制瞭或許是歷史上第一張“回歸線”圖:
這張圖中的R不是我們現在理解的相關關系(皮爾遜後來才用r表示相關系數),它是高爾頓估計的母豌豆種子直徑的回歸系數(recursion),或者說回歸線的斜率,這一系數等於0.33。它表示子豌豆的直徑與同代豌豆平均值的偏差,平均而言隻有母豌豆與同代平均值偏差的1/3。這一數值小於1,證明“回歸”現象的存在。
在高爾頓看來,“回歸平庸”是一種生物學現象,它似乎保證瞭後代的遺傳特征不會越來越極端化。
1884年,高爾頓在倫敦建立瞭一個人體測量實驗室,廣泛收集各種人體測量數據。高爾頓在人體測量數據(比如身高)上同樣發現瞭“回歸”現象: 子女身高與同代人平均值的偏差,平均而言是中間父母(mid-parentage)與同代人平均值偏差的2/3。中間父母是指父親和母親的平均值。
b8887443e2ea345f07b1eb4403158dca
當回歸不僅在豌豆上觀察到,也在人類的各種測量數據中發現,高爾頓更加確信“回歸法則”(Law of Regression)的存在。他這樣解釋回歸法則:首先,孩子的特征一方面遺傳自他/她的父母,一方面遺傳自更早的祖先。譜系追溯地越久遠,祖先的數量和差異性就越大,他們的平均值將和種族的平均值沒有差異。遙遠祖先和中間父母的影響就好像是將固定比例的純水倒入固定酒精度的酒中,從而稀釋父母的影響。中間祖先的影響機制類似,但程度不同。中間祖先是酒和水一定比例的混合倒入酒中,酒也被稀釋瞭。最終,這些的聯合影響就是將原始的酒稀釋成固定的比例,即遺傳常數。
高爾頓相信大多數遺傳特征有一個統一的遺傳常數。但如果遺傳常數存在,為什麼不同測量特征的回歸線的斜率會不一樣呢?為瞭解決這一矛盾,高爾頓意識到,回歸線的斜率與兩個測量特征的變異性有關。比如,當橫軸的變異性大於縱軸的變異性時,回歸線就變得平緩。
也就是說,高爾頓初步意識到可以用回歸方程 y=r(S_y/S_x)x 來表現兩個變量之間的關系。當然,它不是用這樣的符號來表示自己的結論的。高爾頓不知道怎麼計算r,所以他用的是一個估計值。 S_y/S_x 相當於一個校正系數,用測量特征的變異來校正觀察到的斜率,得到高爾頓構想的遺傳常數。
現代生物學的研究並不支持遺傳常數的存在,但這一想法讓高爾頓在概念上對相關和回歸做出區分:相關不變,但回歸線的斜率可以不一樣。
如何理解呢?
以下是關於這一思想的現代統計學解釋。
我們可以創造三組數據。這三組數據的相關系數是一致的,但我們在第一組數據的基礎上改變x的變異程度(標準差)或y的變異程度,來看看回歸線的斜率是如何變化的?
考慮以下三組數據。x和y都已經中心化,即它們的平均值等於0。每組數據中,x和y的相關都是0.64。你可以使用相關統計軟件來檢驗這一點。
data1 | data2 | data3 | |||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | ||
-3 | -5 | -6 | -5 | -3 | -10 | ||
-3 | 1 | -6 | 1 | -3 | 2 | ||
-1 | 0 | -2 | 0 | -1 | 0 | ||
2 | 0 | 4 | 0 | 2 | 0 | ||
2 | 1 | 4 | 1 | 2 | 2 | ||
3 | 3 | 6 | 3 | 3 | 6 |
數據1中x和y的標準差都是2.68,而在數據2中,我們放大x的標準差(5.37),讓回歸線變緩。在數據3中,我們放大y的標準差,回歸線變得更加陡峭。
36c5500e5b7b3d62068647ce80621947
相關系數的公式是:
r=frac{sum_{i=1}^n{(X_i-overline{X})(Y_i-overline{Y})}}{sqrt{sum_{i=1}^n{(X_i-overline{X})^2}}sqrt{sum_{i=1}^n{(Y_i-overline{Y})^2}}}
也可以寫作:
$$ r=frac{1}{n-1}sum_{i=1}^n(frac{X_i-overline{X}}{s_X})(frac{Y_i-overline{Y}}{s_Y}) $$
回歸系數的公式是:
$$ b=frac{sum_{i=1}^n{(X_i-overline{X})(Y_i-overline{Y})}}{sum_{i=1}^n{(X_i-overline{X})^2}} $$
$$ b=rfrac{s_Y}{s_X} $$
相關系數度量的是以標準差為單位的兩個變量共同變異的程度,它與方向無關。回歸系數度量的是預測變量每變化一個單位,結果變量變化多少單位。用y對x做回歸,和用x對y做回歸,回歸系數或者說回歸線的斜率是不一樣的。回歸系數與兩個變量的相關系數、兩個變量各自的變異程度相關。它告訴我們,當x的原始單位變化一個單位時,為瞭知道y在原始單位上會變化多少,我們需要知道x和y之間的相關性,以及x和y本身的變異程度。
相關的發現讓高爾頓得以研究更廣泛的問題。1888年,高爾頓開始思考與遺傳不相關的兩個問題:
高爾頓很快發現,這些問題和已經解決的遺傳中的親屬關系問題(母豌豆和自豌豆的大小、父母和子女的身高)沒有本質的區別,它們都是相關的問題。在高爾頓的概念中,相關意味著兩個測量特征受到相同因素的影響。它用差異的程度來描述相關,比如隨機抽取的兩個英國人身高差異的中位數是2.4英寸,而兩兄弟身高差異的中位數隻有1.4英寸。
在量綱一致的情況下,回歸就是對相關的測量。當量綱不一致時,你還要考慮不同特征的離散程度。假設我們在分析一群人左手中指的長度和身高的關系。我們發現,平均而言,中指的長度偏離均值1英寸,身高就會偏離均值8.19英寸,而身高偏離均值1英寸,中指的長度平均偏離均值0.06英寸。可以表示為:
$$ y=8.19x $$
$$ x=0.06y $$
為瞭計算相關指數(index of correlation),需要考慮兩個不同的離散程度(本質上就是標準差):
$$ (0.06)timesfrac{175}{15}=(8.19)timesfrac{15}{175} $$
高爾頓對相關的應用前景表示樂觀。他認為,相關還可以用來研究社會問題,比如貧窮和犯罪的關系。高爾頓認為,相關性法則涵蓋瞭廣泛的主題領域,任何有能力、有興趣的人都可以參與研究:
高爾頓關於遺傳的許多思想已經被證明是錯誤的,這裡的梳理主要是為瞭追隨高爾頓的思想脈絡,加深對回歸和相關的理解。在最後一節,我們將說明,高爾頓所謂的“回歸”的生物學現象其實也隻是一個統計學假象,它是選擇性偏差的結果。
如果理解呢?
任何一個測量特征都是信號和噪音的組合。當我們選擇高於平均值的測量特征時,信號(遺傳因素)和噪音(隨機的環境因素)都很可能高於平均值。我們觀察它們的下一代的同一測量特征,高於平均值的信號會被傳遞下去,但高於平均值的噪音不會,因為這些噪音是隨機的,兩代人之間相互獨立。
我們可以構造模擬數據來復現這一統計現象。假設有16顆豌豆,父母豌豆直徑是第4列的測量值,從高到低排序,同一行是父母豌豆對應的後代豌豆大小,後代豌豆的信號值和父母豌豆相同,但噪音是獨立且隨機的。我們將16顆豌豆按父母豌豆直徑大小從高到低排序,分為4組,每組4個,計算每組的平均值,比如編號1~4的4顆豌豆直徑最大,平均有22,比同代人均值高2.6875(22-19.3125),而這4顆豌豆對應的後代豌豆的平均直徑是20.75,比同代豌豆的直徑高1.125,低於父母豌豆的幅度,向同代人的均值“回歸”,同理,我們觀察最小的4顆父母豌豆,平均直徑是16.75,低於均值2.5625,對應的後代豌豆比均值低1.625,同樣向同代人的均值“回歸”。我們通過構造數據復現瞭這一統計學現象。
因為表哥達爾文《物種起源》一書,高爾頓對遺傳問題產生瞭濃厚的興趣,並積極收集數據證明自己的想法。高爾頓的許多生物學思想已經被證明是錯誤的,但他的調查分析確實對現代統計學的發展產生瞭巨大影響。
許多人可能認為,是先有相關,再有回歸,但歷史正好相反。
高爾頓在對豌豆、人類的遺傳特征的研究中首次發現瞭“回歸”現象:後代在同一測量特征上與同代人平均值的差異總是會小於他們的父母與同代人的差異。而且,高爾頓相信,後代和父母與同代人的差異存在固定的數量關系,即遺傳常數。這導致高爾頓發現瞭相關系數:兩個測量特征的相關不變,但可以通過它們的變異程度的比值來調整觀察到的回歸線的斜率。相關的發現進一步拓寬瞭高爾頓的思考領域,使他可以關心更加廣泛的話題。
參考資料:
忽然发现自己学医这么久都白学了! 基础的皮肤小问题:去黑头、改善毛孔粗大、祛闭口痘痘、改善粗糙肌肤…… 找对&用对酸 ...