權重可以撤消採樣過程中故意造成的扭曲。
概率的樣品是其中所有的人都有一個已知的,非零夾雜概率,和最簡單的概率抽樣設計是簡單隨機抽樣 ,其中每個人都有列入概率相同。當受訪者是通過完美執行(例如,沒有覆蓋的錯誤和沒有非響應)簡單隨機抽樣選中,然後估計是簡單,因為樣本將上平均是人口的微縮版。
簡單隨機抽樣在實踐中很少使用,但是。相反,研究人員有意為了降低成本和提高精確度選擇具有包容不等概率人。當研究人員有意選擇具有包容不同的概率的人,則需要調整撤消引起的採樣過程中的扭曲。換句話說,我們如何從一個樣品概括取決於如何選擇的樣本。
例如,當前人口調查(CPS)用於美國政府估計失業率。每個月大約有10萬人接受採訪,無論是臉對臉或電話,結果被用來產生估計的失業率。由於政府希望估計在每個國家的失業率,它不能做大人的簡單隨機樣本,因為這將與小人群(如,羅得島),並從人口眾多的國家太多的國家產生過少的受訪者(如: ,加州)。相反,CPS樣的人在不同的國家以不同的速率,這個過程被稱為不等概率選擇的分層抽樣 。例如,如果想CPS 2000受訪者每狀態,那麼在羅得島州的成年人將有包容比成人在加利福尼亞州的約30倍的概率較高(羅得島:每80萬成人2000受訪者VS美國加州:每3000萬成人2000名受訪者)。正如我們將在後面看到,這種不等概率抽樣的情況與數據的在線資源也是如此,但不同的是CPS,採樣機制是不知道或研究人員的控制。
鑑於其抽樣設計,CPS不能直接代表美國;它包括來自羅得島的人太多了,並從加州太少。因此,這將是不明智的,估計該國的失業率與樣本中的失業率。代替樣本均值的,最好是取加權平均,其中權重佔事實從羅德島人更可能被包括比從加利福尼亞人。例如,從加利福尼亞每個人將是upweighted-他們會更個性化的估計和每個人從羅德島將downweighted - 它們將計算在估計少。在本質上,您將得到更多的聲音,你是不太可能了解的人。
這種玩具的例子說明了一個重要但通常被誤解的一點:一個樣品不需要是人口的微縮版本,以產生良好的預期。如果有足夠的人知道數據是如何收集的,則可以使從樣本估計時,可以使用這些信息。這種方法我剛剛描述的和我的技術在數學上描述了古典概率抽樣框架內方形附錄下降。現在,我將展示同樣的想法如何可以適用於非概率樣本。