3.4誰問

數字時代正在使實踐中的概率抽樣變得更加困難,並為非概率抽樣創造了新的機會。

在抽樣歷史中,存在兩種相互競爭的方法:概率抽樣方法和非概率抽樣方法。雖然這兩種方法都是在採樣的早期階段使用的,但概率抽樣已經佔據主導地位,並且許多社會研究人員被教導以極大的懷疑態度來觀察非概率抽樣。但是,正如我將在下面描述的那樣,數字時代所產生的變化意味著研究人員現在應該重新考慮非概率抽樣。特別是,概率抽樣在實踐中越來越難以實現,非概率抽樣變得更快,更便宜,更好。更快,更便宜的調查本身並不僅僅是目的:它們提供了新的機會,例如更頻繁的調查和更大的樣本量。例如,通過使用非概率方法,合作社國會選舉研究(CCES)的參與者數量大約是使用概率抽樣的早期研究的10倍。這個更大的樣本使政治研究人員能夠研究亞組和社會背景下態度和行為的變化。此外,所有這些增加的規模都沒有降低估計質量(Ansolabehere and Rivers 2013)

目前,社會研究抽樣的主要方法是概率抽樣 。在概率抽樣中,目標人群的所有成員都具有已知的,非零的抽樣概率,並且所有被抽樣的人都對調查作出響應。當滿足這些條件時,優雅的數學結果可為研究人員使用樣本推斷目標人群提供可證實的保證。

然而,在現實世界中,很少能滿足這些數學結果的基本條件。例如,通常存在覆蓋錯誤和無響應。由於這些問題,研究人員經常不得不採用各種統計調整,以便從他們的樣本到目標人群進行推斷。因此,重要的是區分理論上的概率抽樣 ,其具有強大的理論保證,並且在實踐中區分概率抽樣 ,其不提供這樣的保證並且取決於各種統計調整。

隨著時間的推移,理論上的概率抽樣和實踐中的概率抽樣之間的差異一直在增加。例如,即使在高質量,昂貴的調查中,無應答率也在穩步上升(圖3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) 。商業電話調查中的無應答率要高得多 - 有時甚至高達90% (Kohut et al. 2012) 。無應答的這些增加威脅到估計的質量,因為估計越來越依賴於研究人員用於調整無應答的統計模型。此外,儘管調查研究人員為維持高響應率而付出越來越多的努力,但這些質量的下降已經發生。有些人擔心這種質量下降和成本增加的雙重趨勢威脅著調查研究的基礎(National Research Council 2013)

圖3.5:即使在高質量昂貴的調查中,無回應也越來越穩定(National Research Council 2013; B. D. Meyer,Mok和Sullivan 2015)。商業電話調查的無應答率要高得多,有時甚至高達90%(Kohut等人,2012年)。這些無響應的長期趨勢意味著數據收集更加昂貴,而且估算值不太可靠。改編自B. D. Meyer,Mok和Sullivan(2015),圖1。

圖3.5:即使在高質量的昂貴調查中,無應答也越來越穩定(National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) 。商業電話調查的無應答率要高得多,有時甚至高達90% (Kohut et al. 2012) 。這些無響應的長期趨勢意味著數據收集更加昂貴,而且估算值不太可靠。改編自BD Meyer, Mok, and Sullivan (2015) ,圖1。

與此同時,概率抽樣方法的難度越來越大, 非概率抽樣方法也出現了令人興奮的發展。存在多種風格的非概率抽樣方法,但它們共同的一點是它們不能輕易地適應概率抽樣的數學框架(Baker et al. 2013) 。換句話說,在非概率抽樣方法中,並非每個人都具有已知的非零包含概率。非概率抽樣方法在社會研究人員中具有可怕的聲譽,並且與調查研究人員的一些最引人注目的失敗有關,例如文學摘要慘敗(前面討論過)和“杜威失敗杜魯門”,關於美國的錯誤預測。 1948年總統選舉(圖3.6)。

圖3.6:哈里杜魯門總統舉起一份錯誤宣布失敗的報紙的標題。該標題部分基於非概率樣本的估計(Mosteller 1949; Bean 1950; Freedman,Pisani和Purves 2007)。儘管Dewey Defeats Truman發生在1948年,但它仍然是一些研究人員對非概率樣本估計持懷疑態度的原因之一。資料來源:Harry S. Truman圖書館和博物館。

圖3.6:哈里杜魯門總統舉起一份錯誤宣布失敗的報紙的標題。該標題部分基於非概率樣本的估計(Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) 。雖然“Dewey Defeats Truman”發生在1948年,但它仍然是一些研究人員對非概率樣本估計持懷疑態度的原因之一。資料來源: Harry S. Truman圖書館和博物館

一種特別適合數字時代的非概率抽樣形式是使用在線面板 。使用在線小組的研究人員依賴於某些小組提供者 - 通常是公司,政府或大學 - 來構建一個大型,多樣化的人群,他們同意作為調查的受訪者。這些小組參與者通常使用各種臨時方法招募,例如在線橫幅廣告。然後,研究人員可以向小組提供者支付訪問具有所需特徵的受訪者樣本的權限(例如,全國代表成人)。這些在線面板是非概率方法,因為不是每個人都有已知的非零概率。儘管社會研究人員已經在使用非概率在線小組(例如,CCES),但仍然存在一些關於來自他們的估計質量的爭論(Callegaro et al. 2014)

儘管存在這些爭論,但我認為社會研究人員重新考慮非概率抽樣的時機有兩個原因。首先,在數字時代,非概率樣本的收集和分析有許多發展。這些較新的方法與過去引起問題的方法不同,我認為將它們視為“非概率抽樣2.0”是有意義的。研究人員應該重新考慮非概率抽樣的第二個原因是因為概率抽樣是練習變得越來越困難。當現在的實際調查中存在高的不答复率時 - 對於受訪者的實際包容概率是未知的,因此,概率樣本和非概率樣本並不像許多研究人員所認為的那樣不同。

正如我之前所說,非概率樣本被許多社會研究人員懷疑,這部分是因為他們在調查研究早期的一些最令人尷尬的失敗中扮演了角色。我們用非概率樣本得出的明顯例子是Wei Wang,David Rothschild,Sharad Goel和Andrew Gelman (2015)的研究,他們使用非概率樣本正確地恢復了2012年美國大選的結果。美國Xbox用戶 - 絕對是非隨機的美國人樣本。研究人員招募了來自XBox遊戲系統的受訪者,正如您所料,Xbox樣本歪斜了男性和偏斜的年輕人:18至29歲的人佔選民的19%,但是Xbox樣本佔65%,男性佔47%的選民,但佔Xbox樣本的93%(圖3.7)。由於這些強烈的人口偏差,原始Xbox數據是選舉回報的不良指標。它預測米特羅姆尼對巴拉克奧巴馬的強大勝利。同樣,這是原始的,未經調整的非概率樣本的危險的另一個例子,讓人聯想到文學摘要的慘敗。

圖3.7:W。Wang等人的受訪者人口統計數據。 (2015年)。由於受訪者是從XBox招募的,因此相對於2012年大選的選民而言,他們更可能年輕,更有可能成為男性。改編自W. Wang等人。 (2015年),圖1。

圖3.7:W。Wang W. Wang et al. (2015)的受訪者人口統計數據W. Wang et al. (2015) 。由於受訪者是從XBox招募的,因此相對於2012年大選的選民而言,他們更可能年輕,更有可能成為男性。改編自W. Wang et al. (2015) ,圖1。

然而,Wang及其同事意識到了這些問題,並試圖在進行估算時對其非隨機抽樣過程進行調整。特別是,他們使用後分層 ,這種技術也被廣泛用於調整具有覆蓋誤差和無響應的概率樣本。

後分層的主要思想是使用有關目標人群的輔助信息來幫助改進樣本的估計。當使用後分層來對其非概率樣本進行估計時,Wang和同事將人群分成不同的群體,估計每個群體對奧巴馬的支持,然後對群體估計進行加權平均以產生總體估計。例如,他們可以將人口分成兩組(男性和女性),估計男性和女性對奧巴馬的支持,然後通過加權平均來估計對奧巴馬的總體支持,以說明女性的事實。選民佔53%,男子佔47%。粗略地說,後分層有助於通過引入有關組大小的輔助信息來糾正不平衡的樣本。

後分層的關鍵是形成正確的群體。如果你可以將人口分成同質群體,使得每個群體中每個人的反應傾向都相同,那麼後分層將產生無偏估計。換句話說,如果所有男性都有反應傾向並且所有女性都有相同的反應傾向,按性別分層後將產生無偏見的估計。這個假設被稱為同組響應 - 群內假設,我在本章末尾的數學筆記中對此進行了更多描述。

當然,所有男性和所有女性的反應傾向似乎都不一樣。然而,隨著群體數量的增加,群體內的同質反應傾向變得更加合理。粗略地說,如果您創建更多組,則將群體切割為同類組變得更容易。例如,所有女性都有相同的反應傾向似乎難以置信,但對於所有年齡在18-29歲,大學畢業,生活在加利福尼亞州的女性來說,這似乎更為合理。 。因此,隨著分層後使用的組數量變大,支持該方法所需的假設變得更加合理。鑑於這一事實,研究人員經常希望創建大量的群體進行後分層。然而,隨著團體數量的增加,研究人員遇到了一個不同的問題:數據稀疏性。如果每組中只有少數人,那麼估計將更加不確定,並且在有一個沒有受訪者的群體的極端情況下,後分層完全崩潰。

在均勻響應 - 組內傾向假設的合理性與每組中合理樣本量的需求之間存在兩種方式。首先,研究人員可以收集更大,更多樣化的樣本,這有助於確保每組中合理的樣本量。其次,他們可以使用更複雜的統計模型在群體內進行估計。事實上,有時研究人員會同時做這兩件事,正如Wang和他的同事們使用Xbox的受訪者對他們進行的選舉研究所做的那樣。

因為他們使用非概率抽樣方法進行計算機管理訪談(我將在第3.5節中詳細討論計算機管理訪談),Wang及其同事進行了非常便宜的數據收集,這使他們能夠收集345,858名獨特參與者的信息。 ,選舉投票的標準數量巨大。這種龐大的樣本規模使他們能夠形成大量的後分層群體。雖然後分層通常涉及將人口分成數百個群體,但Wang和同事將人口分為176,256組,按性別(2類),種族(4類),年齡(4類),教育(4類),國家劃分。 (51類),黨ID(3類),意識形態(3類),2008年投票(3類)。換句話說,通過低成本數據收集實現的巨大樣本量使他們能夠在估算過程中做出更合理的假設。

然而,即使有345,858名獨特的參與者,仍然有許多團體,王和他的同事幾乎沒有受訪者。因此,他們使用一種稱為多級回歸的技術來估計每組的支持。從本質上講,為了估計奧巴馬在特定群體中的支持,多層次回歸匯集了來自許多密切相關群體的信息。例如,想像一下,試圖估計18至29歲的女性西班牙裔美國人對奧巴馬的支持,他們是大學畢業生,他們是登記的民主黨人,自我認定為溫和派,並且在2008年投票支持奧巴馬。這是一個非常,非常具體的群體,樣本中可能沒有人具有這些特徵。因此,為了對該組進行估計,多級回歸使用統計模型將來自非常相似組的人的估計匯集在一起。

因此,Wang及其同事使用了一種將多級回歸和後分層結合起來的方法,因此他們將其策略多級回歸稱為後分層,或者更親切地稱為“先生。 P.“當Wang及其同事使用P.先生從XBox非概率樣本中做出估計時,他們的估計非常接近奧巴馬在2012年大選中獲得的總體支持(圖3.8)。事實上,他們的估計比傳統的民意調查更準確。因此,在這種情況下,統計調整 - 特別是P.先生 - 似乎在糾正非概率數據的偏差方面做得很好;當您查看未調整的Xbox數據的估計值時,可以清楚地看到偏差。

圖3.8:W.Wang等人的估計。 (2015年)。未經調整的XBox樣本產生了不准確的估計值。但是,加權XBox樣本產生的估計值比基於概率的電話調查的平均值更準確。改編自W. Wang等人。 (2015年),數字2和3。

圖3.8:W.Wang W. Wang et al. (2015)估計W. Wang et al. (2015) 。未經調整的XBox樣本產生了不准確的估計值。但是,加權XBox樣本產生的估計值比基於概率的電話調查的平均值更準確。改編自W. Wang et al. (2015) ,數字2和3。

Wang及其同事的研究有兩個主要的教訓。首先,未經調整的非概率樣本可能導致估計不良;這是許多研究人員之前聽過的教訓。然而,第二個教訓是,非正態樣本在正確分析時,實際上可以產生良好的估計;非概率樣本不需要自動導致類似文學摘要的慘敗。

展望未來,如果您在嘗試使用概率抽樣方法和非概率抽樣方法之間做出決定,那麼您將面臨一個艱難的選擇。有時研究人員需要快速而嚴格的規則(例如,總是使用概率抽樣方法),但提供這樣的規則越來越困難。研究人員在實踐中的概率抽樣方法之間面臨著一個艱難的選擇 - 這種方法越來越昂貴,遠遠超出理論上的結果,這些理論結果證明了它們的使用和非概率抽樣方法 - 這些方法更便宜,速度更快,但更不熟悉和更多樣化。然而,有一點很明顯,如果你被迫使用非概率樣本或非代表性大數據源(回想第2章),那麼有充分的理由相信使用後分層和相關技術將優於未經調整的原始估計。