非代表性數據不適用於樣本外泛化,但對於樣本內比較非常有用。
一些社會科學家習慣於使用來自明確定義的人群的概率隨機樣本的數據,例如特定國家的所有成年人。這種數據稱為代表性數據,因為樣本“代表”較大的人口。許多研究人員對代表性數據進行了獎勵,而對某些人而言,代表性數據與嚴謹的科學同義,而非代表性數據則與邋。同義。在最極端的情況下,一些懷疑論者似乎認為,從非代表性數據中無法學到任何東西。如果這是真的,這似乎嚴重限制了從大數據源可以學到的東西,因為它們中的許多都是非代表性的。幸運的是,這些懷疑論者只是部分正確。有一些研究目標,非代表性數據顯然不太適合,但有些其他實際上可能非常有用。
為了理解這種區別,讓我們考慮一下科學經典:John Snow對1853-54倫敦霍亂疫情的研究。當時,許多醫生認為霍亂是由“空氣不好”引起的,但斯諾認為這是一種傳染病,可能是由帶有污水的飲用水傳播的。為了測試這個想法,斯諾利用了我們現在稱之為自然實驗的東西。他比較了兩家不同水務公司的家庭霍亂率:Lambeth和Southwark&Vauxhall。這些公司為類似的家庭提供服務,但他們在一個重要方面有所不同:1849年 - 在流行病開始前幾年 - 蘭貝斯將其進水點從倫敦的主要污水排放口上游移開,而南華克和沃克斯豪爾將其進水管從其下游離開污水排放。當Snow比較兩家公司服務的家庭中霍亂的死亡率時,他發現Southwark&Vauxhall(向客戶提供污水污染的公司)的客戶死於霍亂的可能性是其10倍。這一結果為斯諾關於霍亂原因的爭論提供了有力的科學依據,儘管它並非基於倫敦人的代表性樣本。
然而,這兩家公司的數據對於回答一個不同的問題並不理想:爆發期間倫敦的霍亂流行情況如何?對於那個同樣重要的第二個問題,從倫敦獲得一份代表性樣本會更好。
正如斯諾的工作所表明的那樣,有一些科學問題,非代表性數據可以非常有效,還有一些不適合。區分這兩類問題的一種粗略方法是,一些問題是關於樣本內的比較,一些問題是關於樣本外的概括。流行病學的另一項經典研究可以進一步說明這種區別:英國醫生研究,它在證明吸煙導致癌症方面發揮了重要作用。在這項研究中,Richard Doll和A. Bradford Hill在大約25,000名男醫生的陪同下進行了數年,並根據他們在研究開始時吸煙的數量來比較他們的死亡率。 Doll和Hill (1954)發現了一種強烈的暴露 - 反應關係:吸煙的人越多,他們死於肺癌的可能性就越大。當然,基於這組男性醫生估計所有英國人中肺癌的患病率是不明智的,但樣本內的比較仍然提供了吸煙導致肺癌的證據。
現在我已經說明了樣本內比較和样本外概括之間的區別,有兩點需要注意。首先,自然存在一個問題,即英國男性醫生樣本中的關係在多大程度上也存在於女性,英國醫生或英國男性工廠工人或德國女性工廠工人或許多其他群體的樣本中。這些問題既有趣又重要,但它們與我們可以從樣本到人口的概括程度的問題不同。例如,請注意,您可能懷疑在英國男性醫生中發現的吸煙與癌症之間的關係可能在這些其他組中相似。你做這種推斷的能力並不是因為英國男性醫生是來自任何人群的概率性隨機樣本;相反,它來自對吸煙與癌症聯繫起來的機制的理解。因此,從樣本到抽取人口的概括在很大程度上是一個統計問題,但是關於在一個群體中發現的模式到另一個群體的可運輸性的問題在很大程度上是非(Pearl and Bareinboim 2014; Pearl 2015)問題(Pearl and Bareinboim 2014; Pearl 2015) 。
在這一點上,懷疑論者可能會指出,大多數社交模式可能不像吸煙和癌症之間的關係那樣可以跨群體運輸。並且我同意。我們應該期望模式可以運輸的程度最終是一個必鬚根據理論和證據來決定的科學問題。不應該自動假設模式是可移動的,但也不應該假設它們不可移動。如果您通過研究本科生可以了解有多少研究人員可以了解人類行為的討論(Sears 1986, [@henrich_most_2010] )那麼這些關於可運輸性的抽象問題將會讓您熟悉。然而,儘管存在這些爭論,但研究人員無法從研究本科生中學到任何東西是不合理的。
第二個警告是,大多數具有非代表性數據的研究人員並不像Snow或Doll和Hill那樣謹慎。因此,為了說明當研究人員嘗試從非代表性數據進行樣本外推廣時會出現什麼問題,我想告訴你關於Andranik Tumasjan及其同事(2010)對2009年德國議會選舉的研究。通過分析超過10萬條推文,他們發現提及政黨的推文比例與該黨在議會選舉中獲得的投票比例相符(圖2.3)。換句話說,基本上免費的Twitter數據似乎可以取代傳統的民意調查,因為它們強調代表性數據,因此很昂貴。
鑑於您可能已經了解Twitter,您應該立即對此結果持懷疑態度。 2009年推特上的德國人不是德國選民的概率性隨機樣本,一些政黨的支持者可能比其他政黨的支持者更頻繁地發布關於政治的推文。因此,令人驚訝的是,您可以想像的所有可能的偏見都會以某種方式抵消,以便這些數據直接反映德國選民。事實上, Tumasjan et al. (2010)的結果Tumasjan et al. (2010)結果證明是太好了,不可能是真的。 Andreas Jungherr,PascalJürgens和Harald Schoen (2012)的後續報告指出,原始分析排除了實際上在Twitter上獲得最多提及的政黨:海盜黨,一個打擊政府監管的小黨派互聯網當海盜黨被納入分析時,Twitter提到了選舉結果的可怕預測因子(圖2.3)。正如此示例所示,使用非代表性大數據源進行樣本外泛化可能會出錯。此外,您應該注意到,有100,000條推文的事實基本上無關緊要:許多非代表性數據仍然不具代表性,這是我在討論調查時將在第3章中回歸的主題。
總之,許多大數據來源並不是來自某些定義明確的人群的代表性樣本。對於需要將樣本推廣到繪製人群的問題的問題,這是一個嚴重的問題。但是對於樣本內比較的問題,非代表性數據可能是強大的,只要研究人員清楚他們的樣本的特徵並支持關於可運輸性的理論或經驗證據。事實上,我希望大數據源能夠使研究人員在許多非代表性群體中進行更多的樣本內比較,我的猜測是,來自許多不同群體的估計將比推測概率隨機的單一估計更多地推進社會研究。樣品。