社會(huì)統(tǒng)計(jì)悖論與轉(zhuǎn)變問題

時(shí)間:2022-09-09 05:20:40

導(dǎo)語:社會(huì)統(tǒng)計(jì)悖論與轉(zhuǎn)變問題一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

社會(huì)統(tǒng)計(jì)悖論與轉(zhuǎn)變問題

0引言

社會(huì)統(tǒng)計(jì)分析的數(shù)據(jù)絕大數(shù)是分類意義上的。它們要么是定性的定類、定序數(shù)據(jù),要么是定量的離散數(shù)據(jù)[1],并不具備嚴(yán)格意義上的“+、-、×、÷”等數(shù)學(xué)運(yùn)算特性[2]。社會(huì)研究對(duì)象的這一“分類”特征,使得列聯(lián)表成為社會(huì)統(tǒng)計(jì)分析中應(yīng)用最為廣泛的首選統(tǒng)計(jì)工具之一。因?yàn)榱新?lián)表是非參數(shù)的或僅要求很弱的參數(shù)(分布)假定。但在列聯(lián)表分析中,如何解釋隱現(xiàn)其中的辛普森悖論一直是一個(gè)重要問題。此外,由于分類數(shù)據(jù)的非線性特征,回歸函數(shù)不可能是線性的,需要尋找一個(gè)鏈接函數(shù),將分類變量的期望值變換成自變量的一個(gè)線性函數(shù)。然而,在實(shí)際應(yīng)用中,logit變換與probit變換的內(nèi)在差異與背后假定問題常為人們所忽視,進(jìn)而影響了參數(shù)解釋。

1辛普森悖論問題

辛普森悖論最早于1899年由卡爾•皮爾森(KarlPear-son)提出,但一直到1951年E.H.辛普森才正式描述并解釋這一現(xiàn)象,后來就以他的名字命名該悖論。關(guān)于辛普森悖論,國(guó)內(nèi)學(xué)者關(guān)注不多,只有李思一(1984)、王軼豪(1986)、倪加勛(1992)、吳素萍(2000)、耿直(2000)、史希來(2006)、王健(2008)等人作過介紹性研究。辛普森悖論是指,在分組比較中都占優(yōu)勢(shì)的一方,在總體評(píng)價(jià)中卻并不占優(yōu)勢(shì)。我們先來看一個(gè)源自真實(shí)生活的案例。1979年初,《美國(guó)歷史畫報(bào)》雜志對(duì)讀者類型和獲得期刊的方式進(jìn)行了統(tǒng)計(jì)[3]。見表1。

從表1可以看出,五種訂閱方式中,老訂戶1月份的續(xù)訂率要高于2月份,但合計(jì)后總的續(xù)訂率卻要低于2月份。除了上述案例外,還有其他很多真實(shí)的數(shù)據(jù)表現(xiàn)出了辛普森悖論現(xiàn)象,如Bickel等(1975),Wagner(1982),Neufeld(1995)。總之,辛普森悖論不是虛幻的,而是客觀存在的。問題是如何解釋辛普森悖論的產(chǎn)生原因。由于統(tǒng)計(jì)的基礎(chǔ)在于概率,于是人們就從概率論加以解釋。辛普森悖論可定義為以下三種情況同時(shí)發(fā)生:(1)P(I|A,B)>P(I|A,B'''');(2)P(I|A'''',B)>P(I|A''''B'''');(3)P(I|B)<P(I|B'''')式(1)表示A在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(2)表示A’在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(3)表示B發(fā)生的概率小于B’發(fā)生的概率。可以證明,如果保持試驗(yàn)的結(jié)構(gòu)相同,即P(A|B)=P(A|B'''')成立時(shí),就可以避免辛普森悖論的出現(xiàn)(證明參見倪加勛,1992)。

雖然從概率角度可以詮釋辛普森悖論問題,但在筆者看來,這種詮釋具有柏拉圖“理念論”的色彩。因?yàn)檫@里遵從的是概率的頻率定義(列聯(lián)表中表征的是頻率),即P(E)=limN→∞f(E)=limN→∞nN事實(shí)上,由于試驗(yàn)或觀測(cè)次數(shù)N為∞是做不到的,因此,列聯(lián)表中的相對(duì)頻率只能說是對(duì)概率的一種柏拉圖意義上的“理念”摹本,近似到何種程度仍然是有疑問的。如果從“現(xiàn)象”出發(fā),就會(huì)發(fā)現(xiàn):辛普森悖論與其說是悖論,不如說反映了社會(huì)統(tǒng)計(jì)分析對(duì)象的獨(dú)特特征,即分類數(shù)據(jù)的非線性特征。正是因?yàn)榉蔷€性,使得列聯(lián)表在不同的結(jié)構(gòu)維度,表征了不可還原的不同統(tǒng)計(jì)信息。在上例中,由于將原始數(shù)據(jù)從三維結(jié)構(gòu)壓縮成二維結(jié)構(gòu),自然就失去了另一維的信息,分析結(jié)構(gòu)的不一致恰恰是不同維度統(tǒng)計(jì)信息的反映。因此,列聯(lián)表中的辛普森悖論實(shí)質(zhì)上是一個(gè)將高維空間降到低維空間的產(chǎn)物[4]。

事實(shí)上,這種由于降維而丟失信息在其他統(tǒng)計(jì)分析方法中也會(huì)發(fā)生。例如,因子分析,雖然在理論上可以有無數(shù)個(gè)因子載荷矩陣,且每一個(gè)因子載荷矩陣對(duì)于一組潛在因子。但只有通過變換得出或組合出更合理、更便于解釋的潛在因子時(shí),因子分析才可以說是成功的。整個(gè)分析過程實(shí)際上是一個(gè)歐氏空間降維和坐標(biāo)變換(相當(dāng)于坐標(biāo)軸的剛性旋轉(zhuǎn))的過程;又如,聚類分析,實(shí)際上是將分布在歐氏空間的觀測(cè)數(shù)據(jù),投影到超橢球的方差最大方向和方差次大方向所形成的二維空間的平面上,然后按該平面上投影點(diǎn)之間的距離來直觀地劃分類別(相當(dāng)于對(duì)應(yīng)分析)。這也是一個(gè)歐氏空間的坐標(biāo)變換和降維過程。總之,列聯(lián)表在“高保真”地表征分類數(shù)據(jù)信息的同時(shí),由于分類數(shù)據(jù)的非線性特征,在降維的過程中自然而然會(huì)帶來“辛普森悖論”問題。“辛普森悖論”的實(shí)質(zhì)是“結(jié)構(gòu)性”的,是不同列聯(lián)表結(jié)構(gòu)維度的統(tǒng)計(jì)信息差異。

2變換問題

列聯(lián)表在本質(zhì)上是對(duì)稱的。當(dāng)社會(huì)統(tǒng)計(jì)分析的范圍拓展到不對(duì)稱的回歸分析時(shí),考慮到因變量的分類屬性(categori-calnature),回歸函數(shù)不可能是線性的,為此需要尋找一個(gè)鏈接函數(shù)(linkfunctions),將分類變量的期望值變換成自變量的一個(gè)線性函數(shù)。在這里,有個(gè)常見的問題,即人們常常對(duì)鏈接函數(shù)logit與probit的內(nèi)在差異與背后假定不做辨析,進(jìn)而忽視這些差異與假定對(duì)于社會(huì)統(tǒng)計(jì)分析的參數(shù)解釋所具有的重要意義。在回歸模型中納入分類變量作為自變量并不存在任何特別的難處,因?yàn)樗饕婕敖⑴c自變量不同類別相對(duì)應(yīng)的虛擬變量,所有已知回歸模型的性質(zhì)都可以直接推廣到方差和協(xié)方差分析模型。但對(duì)于因變量是分類變量時(shí),情況就徹底改變了,線性回歸的許多知識(shí)都無法簡(jiǎn)單地加以運(yùn)用。

例如,對(duì)一個(gè)一二分因變量y,它的取值在[0,1]之間,一個(gè)自變量x,可以任意取值。我們知道,一個(gè)y對(duì)x的線性回歸意味著,x取任何值,預(yù)測(cè)線(predictedline)將不可避免地落在[0,1]之外,顯然這是不合理的。為此,我們需要尋找一個(gè)鏈接函數(shù)(linkfunctions),將分類變量的期望值變換成自變量的一個(gè)線性函數(shù)。logit變換和probit變換就是其中最為典型的兩種變換。logit和probit變換能夠在不對(duì)參數(shù)加以限定的情況下,其預(yù)測(cè)值被限定在[0,1]范圍內(nèi)。其模型的起源可追溯到心理物理學(xué)[5],但logit和probit模型的現(xiàn)展主要是生物鑒定領(lǐng)域的貢獻(xiàn)[6]。先說logit變換。一般來說,logit變換可以解釋為成功對(duì)失敗之發(fā)生比率的對(duì)數(shù)。成功概率P的logit變換可以表示為:logit(pi)=log(pi1-pi)Probit變換是logit變換的一個(gè)替代選擇。用數(shù)學(xué)公式表示為:probit(pi)=Φ-1(pi)=Φ-1(z-∞乙1姨2πe-t22dt)從上式可以看出,logit和probit兩種分布函數(shù)的公式很相似,實(shí)際上,函數(shù)值相差也并不大,且都繞著p=0.5對(duì)稱(圖1)。無論是probit變換,還是logit變換,在社會(huì)統(tǒng)計(jì)分析中并沒有實(shí)質(zhì)上的理由確認(rèn)哪一種更優(yōu)。一些研究者基于中心極限定理往往傾向于probit變換,但在實(shí)際操作中,logit分布因概率分布和密度函數(shù)的簡(jiǎn)單性而更受歡迎。

需要進(jìn)一步指出的是,區(qū)分兩種變換的內(nèi)在差異與背后假定是相當(dāng)重要的:首先,就分布來說,logit函數(shù)假設(shè)隨機(jī)變量服從邏輯概率分布,而probit函數(shù)則假設(shè)隨機(jī)變量服從正態(tài)分布。標(biāo)準(zhǔn)邏輯概率分布和標(biāo)準(zhǔn)正態(tài)分布的均值都為0,但方差不同,前者的方差為π2/3,后者的方差為0。這一差別進(jìn)一步體現(xiàn)為logit模型的系數(shù)比可比的probit系數(shù)年要大。從理論上來講,一個(gè)probit模型系數(shù)大約乘以1.81就應(yīng)當(dāng)?shù)玫揭粋€(gè)接近于logit系數(shù)的值。同理,logit估計(jì)值乘上大約0.55就可以得到一個(gè)近似的probit估計(jì)值。在實(shí)際操作中,有研究者建議以1.61和0.625作為乘數(shù)以得到更接近的近似值[7]。其次,無論logit變換還是probit變換在0.2~0.8之間基本呈現(xiàn)線性。在這個(gè)范圍之外,兩個(gè)函數(shù)都是高度非線性的。這意味著,如果P被作為一個(gè)連續(xù)解釋變量(x)的函數(shù)進(jìn)行統(tǒng)計(jì)建模,x對(duì)p的影響就不是常數(shù),而會(huì)隨x的變化而變化。例如,我們發(fā)現(xiàn)當(dāng)probit(pi)=logit(pi)=β0+β1xi=0時(shí),x變化所帶來的變化比probit(pi)<0,logit(pi)<0或probit(pi)>0,logit(pi)>0時(shí)要更大。這一點(diǎn)在對(duì)logit和probit系數(shù)進(jìn)行解釋時(shí)要特別注意其特定的含義。

3結(jié)語

社會(huì)統(tǒng)計(jì)分析就其對(duì)象的數(shù)學(xué)形式來說與其他統(tǒng)計(jì)分析并無差異,都可用統(tǒng)一的矩陣表示:但由于社會(huì)統(tǒng)計(jì)分析的數(shù)據(jù)絕大數(shù)是分類意義上的,使得列聯(lián)表分析、尋找鏈接函數(shù)成為突出的兩大應(yīng)用性問題。本文探討了隱現(xiàn)于列聯(lián)表分析中辛普森悖論問題,分析了回歸分析中l(wèi)ogit變換與probit變換的內(nèi)在差異與相關(guān)假定。認(rèn)為,辛普森悖論誠(chéng)然可以通過全概公式加以解釋,但實(shí)質(zhì)上是歐氏空間的降維問題,是列聯(lián)表不同維度數(shù)據(jù)結(jié)構(gòu)的統(tǒng)計(jì)信息差異性反映;無論logit與probit函數(shù)只有在0.2~0.8之間才基本呈現(xiàn)線性,在這個(gè)范圍之外,兩個(gè)函數(shù)都是高度非線性的。上述兩個(gè)應(yīng)用性問題無疑對(duì)于社會(huì)統(tǒng)計(jì)分析的參數(shù)解釋有著特殊的意義。