3.4谁问

概率的样品和非概率的样品都没有在实践中,不同的;在这两种情况下,它的所有有关的权重。

采样就是从根本上调查研究。研究人员几乎从来不问自己的问题,每个人都在自己的目标人群。在这方面,调查是不是唯一的。大多数的研究,以这种或那种方式,涉及到采样。有时,这种采样是由研究人员进行明确;其他时候,它含蓄地发生。例如,运行在本科生她的大学实验室实验的研究人员也采取了样本。因此,采样的是,在本书中出现的问题。事实上,我所听到的数据数字时代来源中最常见的问题之一就是“他们不是代表”。我们将在本节看到,这种担忧是既不太严重,也更加隐蔽比许多怀疑论者实现。事实上,我会说,“代表性”的整个概念是不是想着概率和非概率样本很有帮助。相反,关键是要考虑数据的收集方式,以及如何收集数据中的任何偏见可以进行估算时被撤销。

目前,占主导地位的理论方法,以表示是概率抽样 。当数据与已完全执行的概率抽样方法收集,研究人员能够基于它们收集做出关于目标人群无偏估计的方式来加权他们的数据。然而,完美的概率抽样基本上不会发生在现实世界中。通常有两个主要的问题1)目标人口和框架人口和2之间的差)无反应(这些正是失事文学文摘投票的问题)。因此,而不是概率抽样的思想为究竟是什么在世界上发生的真实模型,不如想想概率抽样作为一个有用的,抽象的模型,就像物理学家的方式思考一个无摩擦球滚下一个无限长坡道。

以概率抽样的方法是非概率抽样 。概率和非概率抽样的主要区别是,与概率抽样人口每个人都有包容的已知概率。有,其实很多品种的非概率抽样和数据收集的这些方法变得越来越普遍在数字化时代。但是,非概率抽样有社会学家和统计学家之间的可怕的声誉。事实上,非概率抽样的一些调查研究的最引人注目的故障,如文学文摘惨败(如前所述)和关于1948年(“杜威击败杜鲁门”),美国总统大选的不正确预测相关(Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007)

然而,时间是正确的,重新考虑非概率抽样的原因有两个。首先,作为概率的样品已经变得越来越难以在实践中这样做,概率的样品和非概率样本之间的线被模糊。当有不答复的高速率(因为有在现在实际调查),夹杂物为受访实际概率是未知的,并且因此,概率的样品和非概率样品没有不同许多研究者认为。事实上,正如我们下面将看到的,这两种方法主要依赖于相同的估算方法: 后分层 。第二,已有的收集和非概率样品的分析在许多发展。这些方法从造成过去问题的方法,我认为是有道理的认为它们是足够不同的“非概率抽样2.0。”我们不应该有一个理性的厌恶,因为所发生的错误的非概率方法很久以前。

接下来,为了使这个说法更具体,我将回顾标准的概率抽样和加权(第3.4.1节)。关键的想法是你如何收集你的数据应该影响你如何进行估计。特别是,如果每个人不具有夹杂物的概率相同,则每个人都应该不具有相同的权重。换句话说,如果你的采样是不是民主的,那么你的估计应该不会是民主的。审查权重后,我将介绍两种方法,以非概率抽样:试图放置更多的控制数​​据是如何一个专注于加权处理随意收集的数据(第3.4.2节)的问题,和一个收集(3.4.3节)。在正文的参数下面将文字和图片说明;读者谁愿意跟一个更加数学处理也应该看到技术附录。