概率的樣品和非概率的樣品都沒有在實踐中,不同的;在這兩種情況下,它的所有有關的權重。
採樣就是從根本上調查研究。研究人員幾乎從來不問自己的問題,每個人都在自己的目標人群。在這方面,調查是不是唯一的。大多數的研究,以這種或那種方式,涉及到採樣。有時,這種採樣是由研究人員進行明確;其他時候,它含蓄地發生。例如,運行在本科生她的大學實驗室實驗的研究人員也採取了樣本。因此,採樣的是,在本書中出現的問題。事實上,我所聽到的數據數字時代來源中最常見的問題之一就是“他們不是代表”。我們將在本節看到,這種擔憂是既不太嚴重,也更加隱蔽比許多懷疑論者實現。事實上,我會說,“代表性”的整個概念是不是想著概率和非概率樣本很有幫助。相反,關鍵是要考慮數據的收集方式,以及如何收集數據中的任何偏見可以進行估算時被撤銷。
目前,佔主導地位的理論方法,以表示是概率抽樣 。當數據與已完全執行的概率抽樣方法收集,研究人員能夠基於它們收集做出關於目標人群無偏估計的方式來加權他們的數據。然而,完美的概率抽樣基本上不會發生在現實世界中。通常有兩個主要的問題1)目標人口和框架人口和2之間的差)無反應(這些正是失事文學文摘投票的問題)。因此,而不是概率抽樣的思想為究竟是什麼在世界上發生的真實模型,不如想想概率抽樣作為一個有用的,抽象的模型,就像物理學家的方式思考一個無摩擦球滾下一個無限長坡道。
以概率抽樣的方法是非概率抽樣 。概率和非概率抽樣的主要區別是,與概率抽樣人口每個人都有包容的已知概率。有,其實很多品種的非概率抽樣和數據收集的這些方法變得越來越普遍在數字化時代。但是,非概率抽樣有社會學家和統計學家之間的可怕的聲譽。事實上,非概率抽樣的一些調查研究的最引人注目的故障,如文學文摘慘敗(如前所述)和關於1948年(“杜威擊敗杜魯門”),美國總統大選的不正確預測相關(Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) 。
然而,時間是正確的,重新考慮非概率抽樣的原因有兩個。首先,作為概率的樣品已經變得越來越難以在實踐中這樣做,概率的樣品和非概率樣本之間的線被模糊。當有不答复的高速率(因為有在現在實際調查),夾雜物為受訪實際概率是未知的,並且因此,概率的樣品和非概率樣品沒有不同許多研究者認為。事實上,正如我們下 面將看到的,這兩種方法主要依賴於相同的估算方法: 後分層 。第二,已有的收集和非概率樣品的分析在許多發展。這些方法從造成過去問題的方法,我認為是有道理的認為它們是足夠不同的“非概率抽樣2.0。”我們不應該有一個理性的厭惡,因為所發生的錯誤的非概率方法很久以前。
接下來,為了使這個說法更具體,我將回顧標準的概率抽樣和加權(第3.4.1節)。關鍵的想法是你如何收集你的數據應該影響你如何進行估計。特別是,如果每個人不具有夾雜物的概率相同,則每個人都應該不具有相同的權重。換句話說,如果你的採樣是不是民主的,那麼你的估計應該不會是民主的。審查權重後,我將介紹兩種方法,以非概率抽樣:試圖放置更多的控制數據是如何一個專注於加權處理隨意收集的數據(第3.4.2節)的問題,和一個收集(3.4.3節)。在正文的參數下面將文字和圖片說明;讀者誰願意跟一個更加數學處理也應該看到技術附錄。