數學筆記

在本附錄中,我將以稍微更多的數學形式描述本章中的一些想法。這裡的目標是幫助您熟悉調查研究人員使用的符號和數學框架,以便您可以過渡到關於這些主題的一些更多技術材料。我將首先介紹概率抽樣,然後轉向無響應的概率抽樣,最後是非概率抽樣。

概率抽樣

作為一個運行的例子,讓我們考慮估算美國失業率的目標。讓\(U = \{1, \ldots, k, \ldots, N\}\)成為目標總體,讓\(y_k\)乘以人\(k\)的結果變量的值。在這個例子中, \(y_k\)是人\(k\)是否失業。最後,讓\(F = \{1, \ldots, k, \ldots, N\}\)為幀總體,為簡單起見,假設它與目標總體相同。

基本採樣設計是簡單的隨機採樣,無需更換。在這種情況下,每個人同樣可能被包含在樣本\(s = \{1, \ldots, i, \ldots, n\}\) 。當使用此抽樣設計收集數據時,研究人員可以使用樣本平均值估算人口失業率:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

其中\(\bar{y}\)是人口中的失業率, \(\hat{\bar{y}}\)是失業率的估計值( \(\hat{ }\)通常是用於表示估算器)。

實際上,研究人員很少使用簡單的隨機抽樣而無需替換由於各種原因(其中一個我將在稍後描述),研究人員經常創建具有不等的包含概率的樣本。例如,研究人員可能會選擇佛羅里達州的人群,其加入概率高於加利福尼亞州。在這種情況下,樣本均值(方程3.1)可能不是一個好的估計量。相反,當存在不均衡的包容概率時,研究人員會使用

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

其中\(\hat{\bar{y}}\)是失業率的估計值, \(\pi_i\)是人\(i\)的包含概率。按照標準練習,我會在eq中調用估算器。 3.2 Horvitz-Thompson估計。 Horvitz-Thompson估計非常有用,因為它可以對任何概率抽樣設計進行無偏估計(Horvitz and Thompson 1952) 。因為Horvitz-Thompson估計器頻繁出現,所以注意它可以重寫為

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

其中\(w_i = 1 / \pi_i\) 。如同eq。 3.3顯示,Horvitz-Thompson估計量是一個加權樣本均值,其權重與選擇概率成反比。換句話說,一個人被包括在樣本中的可能性越小,該人應該在估計中獲得的權重越大。

如前所述,研究人員經常對包含不一致概率的人進行抽樣調查。可能導致包含概率不平等的設計的一個例子是分層抽樣 ,這對於理解是重要的,因為它與稱為後分層的估計過程密切相關。在分層抽樣中,研究人員將目標人群分成\(H\)相互排斥和詳盡的群體。這些組稱為strata ,表示為\(U_1, \ldots, U_h, \ldots, U_H\) 。在這個例子中,階層是狀態。組的大小表示為\(N_1, \ldots, N_h, \ldots, N_H\) 。研究人員可能希望使用分層抽樣,以確保每個州有足夠的人來做出州級失業估計。

一旦人口被分割成階層 ,假設研究人員選擇一個簡單的隨機樣本而不替換大小\(n_h\) ,獨立於每個階層。此外,假設樣本中選擇的每個人都成為受訪者(我將在下一部分處理不答复)。在這種情況下,包含的概率是

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

由於這些概率可能因人而異,因此在根據此抽樣設計進行估算時,研究人員需要使用Horvitz-Thompson估算器(方程3.2)通過其包含概率的倒數對每個受訪者進行加權。

儘管Horvitz-Thompson估計器是無偏的,但研究人員可以通過將樣本與輔助信息相結合來生成更準確(即,更低方差)的估計。有些人發現即使有完美執行的概率抽樣也是如此,這是令人驚訝的。使用輔助信息的這些技術特別重要,因為正如我稍後將要說明的那樣,輔助信息對於從具有無響應的概率樣本和來自非概率樣本的概率樣本進行估計是至關重要的。

利用輔助信息的一種常用技術是後分層 。例如,想像一下,研究人員知道50個州中每個州的男性和女性人數;我們可以將這些組大小表示為\(N_1, N_2, \ldots, N_{100}\) 。要將此輔助信息與樣本組合,研究人員可以將樣本拆分為\(H\)組(在本例中為100),對每個組進行估計,然後創建這些組的加權平均值:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

粗略地說,eq中的估計量。 3.5可能更準確,因為它使用已知的人口信息 - \(N_h\) - 來正確估計是否恰好選擇了不平衡的樣本。考慮它的一種方法是,在已經收集數據之後,後分層就像是近似分層。

總之,本節描述了一些抽樣設計:無替換的簡單隨機抽樣,不等概率抽樣和分層抽樣。它還描述了關於估計的兩個主要觀點:Horvitz-Thompson估計和後分層。有關概率抽樣設計的更正式定義,請參見Särndal, Swensson, and Wretman (2003)第2章。有關分層抽樣的更正式和完整的處理,請參見Särndal, Swensson, and Wretman (2003)第3.7節。關於Horvitz-Thompson估計的性質的技術描述,參見Horvitz and Thompson (1952)Overton and Stehman (1995) ,或@ sarndal_model_2003的第2.8節。關於後分層的更正式的處理,參見Holt and Smith (1979)Smith (1991)Little (1993) ,或Särndal, Swensson, and Wretman (2003) 7.6節。

具有無響應的概率抽樣

幾乎所有真實的調查都沒有回應;也就是說,並非樣本群體中的每個人都回答每個問題。有兩種主要的無回應: 項目無回應單位無回應 。在項目無回應中,一些受訪者不回答某些項目(例如,有時受訪者不想回答他們認為敏感的問題)。在單位無應答中,為樣本群體選擇的某些人根本不對調查做出響應。單位無回應的兩個最常見原因是無法聯繫抽樣人員並聯繫樣本人員但拒絕參加。在本節中,我將重點關注單元無回應;對項目無回應感興趣的讀者應該看Little和Rubin (2002)

研究人員經常將單位不答复的調查視為兩階段抽樣過程。在第一階段,研究人員選擇樣本\(s\) ,使得每個人都有包含概率\(\pi_i\) (其中\(0 < \pi_i \leq 1\) )。然後,在第二階段,被選入樣本的人以概率\(\phi_i\) (其中\(0 < \phi_i \leq 1\) )進行響應。這個兩階段過程導致最終的一組受訪者\(r\) 。這兩個階段之間的一個重要區別是研究人員控制選擇樣本的過程,但他們無法控制哪些抽樣人員成為受訪者。將這兩個過程放在一起,某人成為受訪者的可能性就是

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

為簡單起見,我將考慮原始樣本設計是簡單隨機抽樣而無需替換的情況。如果研究人員選擇大小為\(n_s\) \(n_r\)的樣本,產生\(n_r\)受訪者,如果研究人員忽略不答复並使用受訪者的平均值,那麼估計的偏差將是:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

其中\(cor(\phi, y)\)是響應傾向與結果(例如,失業狀態)之間的人口相關性, \(S(y)\)是結果的人口標準差(例如,失業率)狀態), \(S(\phi)\)是響應傾向的總體標準差, \(\bar{\phi}\)是總體平均響應傾向(Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

式。 3.7表明如果滿足以下任何條件,無回應將不會引入偏差:

  • 失業狀況沒有變化\((S(y) = 0)\)
  • 響應傾向沒有變化\((S(\phi) = 0)\)
  • 反應傾向與失業狀態之間沒有相關性\((cor(\phi, y) = 0)\)

不幸的是,似乎沒有這些條件。似乎難以置信的是,就業狀況不會有變化,或者反應傾向不會有變化。因此,eq中的關鍵術語。 3.7是相關性: \(cor(\phi, y)\) 。例如,如果失業人員更有可能做出回應,那麼估計的就業率將會偏向上升。

在無響應時進行估計的技巧是使用輔助信息。例如,您可以使用輔助信息的一種方法是分層後(從上面回憶方程3.5)。事實證明,後分層估計的偏差是:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

其中\(cor(\phi, y)^{(h)}\)\(S(y)^{(h)}\)\(S(\phi)^{(h)}\) ,和\(\bar{\phi}^{(h)}\)定義如上,但僅限於組\(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) 。因此,如果每個後分層組中的偏差很小,則整體偏差將很小。我有兩種方式可以考慮在每個後分層組中使偏差變小。首先,你想嘗試形成同質群體,其中反應傾向的變化很小( \(S(\phi)^{(h)} \approx 0\) )和結果( \(S(y)^{(h)} \approx 0\) )。其次,你想形成一個群體,你看到的人就像你沒有看到的人( \(cor(\phi, y)^{(h)} \approx 0\) )。比較eq。 3.7和eq。 3.8有助於澄清何時分層後可以減少無應答造成的偏見。

總之,本節提供了一個無應答的概率抽樣模型,並顯示了無應答可以在沒有和後分層調整的情況下引入的偏差。 Bethlehem (1988)提供了對更一般抽樣設計的無應答引起的偏差的推導。有關使用後分層調整無應答的更多信息,請參閱Smith (1991)Gelman and Carlin (2002) 。後分層是稱為校準估計器的更一般技術家族的一部分,參見Zhang (2000)的物品長度處理和Särndal and Lundström (2005)的書籍長度處理。有關調整無應答的其他其他加權方法的更多信息,請參閱Kalton and Flores-Cervantes (2003)Brick (2013)以及Särndal and Lundström (2005)

非概率抽樣

非概率抽樣包括各種各樣的設計(Baker et al. 2013) 。專注於Wang及其同事(W. Wang et al. 2015)的Xbox用戶樣本,您可以將這種樣本視為抽樣設計的關鍵部分不是\(\pi_i\) (研究者驅動的包容概率)但是\(\phi_i\) (受訪者驅動的反應傾向)。當然,這並不理想,因為\(\phi_i\)是未知的。但是,正如Wang及其同事所表明的那樣,如果研究人員具有良好的輔助信息和良好的統計模型來解決這些問題,那麼這種選擇性樣本 - 即使來自具有巨大覆蓋誤差的抽樣框架 - 也不一定是災難性的。

Bethlehem (2010)將關於後分層的許多上述推導擴展到包括無回應和覆蓋誤差。除了後分層,其他處理非概率樣本的技術 - 以及覆蓋誤差和無響應的概率樣本 - 包括樣本匹配(Ansolabehere and Rivers 2013; ??? ) ,傾向得分加權(Lee 2006; Schonlau et al. 2009)和校準(Lee and Valliant 2009) 。這些技術中的一個共同主題是使用輔助信息。