数字时代正在使实践中的概率抽样变得更加困难,并为非概率抽样创造了新的机会。
在抽样历史中,存在两种相互竞争的方法:概率抽样方法和非概率抽样方法。虽然这两种方法都是在采样的早期阶段使用的,但概率抽样已经占据主导地位,并且许多社会研究人员被教导以极大的怀疑态度来观察非概率抽样。但是,正如我将在下面描述的那样,数字时代所产生的变化意味着研究人员现在应该重新考虑非概率抽样。特别是,概率抽样在实践中越来越难以实现,非概率抽样变得更快,更便宜,更好。更快,更便宜的调查本身并不仅仅是目的:它们提供了新的机会,例如更频繁的调查和更大的样本量。例如,通过使用非概率方法,合作社国会选举研究(CCES)的参与者数量大约是使用概率抽样的早期研究的10倍。这个更大的样本使政治研究人员能够研究亚组和社会背景下态度和行为的变化。此外,所有这些增加的规模都没有降低估计质量(Ansolabehere and Rivers 2013) 。
目前,社会研究抽样的主要方法是概率抽样 。在概率抽样中,目标人群的所有成员都具有已知的,非零的抽样概率,并且所有被抽样的人都对调查作出响应。当满足这些条件时,优雅的数学结果可为研究人员使用样本推断目标人群提供可证实的保证。
然而,在现实世界中,很少能满足这些数学结果的基本条件。例如,通常存在覆盖错误和无响应。由于这些问题,研究人员经常不得不采用各种统计调整,以便从他们的样本到目标人群进行推断。因此,重要的是区分理论上的概率抽样 ,其具有强大的理论保证,并且在实践中区分概率抽样 ,其不提供这样的保证并且取决于各种统计调整。
随着时间的推移,理论上的概率抽样和实践中的概率抽样之间的差异一直在增加。例如,即使在高质量,昂贵的调查中,无应答率也在稳步上升(图3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) 。商业电话调查中的无应答率要高得多 - 有时甚至高达90% (Kohut et al. 2012) 。无应答的这些增加威胁到估计的质量,因为估计越来越依赖于研究人员用于调整无应答的统计模型。此外,尽管调查研究人员为维持高响应率而付出越来越多的努力,但这些质量的下降已经发生。有些人担心这种质量下降和成本增加的双重趋势威胁着调查研究的基础(National Research Council 2013) 。
与此同时,概率抽样方法的难度越来越大, 非概率抽样方法也出现了令人兴奋的发展。存在多种风格的非概率抽样方法,但它们共同的一点是它们不能轻易地适应概率抽样的数学框架(Baker et al. 2013) 。换句话说,在非概率抽样方法中,并非每个人都具有已知的非零包含概率。非概率抽样方法在社会研究人员中具有可怕的声誉,并且与调查研究人员的一些最引人注目的失败有关,例如文学摘要惨败(前面讨论过)和“杜威失败杜鲁门”,关于美国的错误预测。 1948年总统选举(图3.6)。
一种特别适合数字时代的非概率抽样形式是使用在线面板 。使用在线小组的研究人员依赖于某些小组提供者 - 通常是公司,政府或大学 - 来构建一个大型,多样化的人群,他们同意作为调查的受访者。这些小组参与者通常使用各种临时方法招募,例如在线横幅广告。然后,研究人员可以向小组提供者支付访问具有所需特征的受访者样本的权限(例如,全国代表成人)。这些在线面板是非概率方法,因为不是每个人都有已知的非零概率。尽管社会研究人员已经在使用非概率在线小组(例如,CCES),但仍然存在一些关于来自他们的估计质量的争论(Callegaro et al. 2014) 。
尽管存在这些争论,但我认为社会研究人员重新考虑非概率抽样的时机有两个原因。首先,在数字时代,非概率样本的收集和分析有许多发展。这些较新的方法与过去引起问题的方法不同,我认为将它们视为“非概率抽样2.0”是有意义的。研究人员应该重新考虑非概率抽样的第二个原因是因为概率抽样是练习变得越来越困难。当现在的实际调查中存在较高的不答复率时,对受访者的实际包容概率尚不清楚,因此,概率样本和非概率样本并不像许多研究人员所认为的那样不同。
正如我之前所说,非概率样本被许多社会研究人员怀疑,这部分是因为他们在调查研究早期的一些最令人尴尬的失败中扮演了角色。我们用非概率样本得出的明显例子是Wei Wang,David Rothschild,Sharad Goel和Andrew Gelman (2015)的研究,他们使用非概率样本正确地恢复了2012年美国大选的结果。美国Xbox用户 - 绝对是非随机的美国人样本。研究人员招募了来自XBox游戏系统的受访者,正如您所料,Xbox样本歪斜了男性和偏斜的年轻人:18至29岁的人占选民的19%,但是Xbox样本占65%,男性占47%的选民,但占Xbox样本的93%(图3.7)。由于这些强烈的人口偏差,原始Xbox数据是选举回报的不良指标。它预测米特罗姆尼对巴拉克奥巴马的强大胜利。同样,这是原始的,未经调整的非概率样本的危险的另一个例子,让人联想到文学摘要的惨败。
然而,Wang及其同事意识到了这些问题,并试图在进行估算时对其非随机抽样过程进行调整。特别是,他们使用后分层 ,这种技术也被广泛用于调整具有覆盖误差和无响应的概率样本。
后分层的主要思想是使用有关目标人群的辅助信息来帮助改进样本的估计。当使用后分层来对其非概率样本进行估计时,Wang和同事将人群分成不同的群体,估计每个群体对奥巴马的支持,然后对群体估计进行加权平均以产生总体估计。例如,他们可以将人口分成两组(男性和女性),估计男性和女性对奥巴马的支持,然后通过加权平均来估计对奥巴马的总体支持,以说明女性的事实。选民占53%,男子占47%。粗略地说,后分层有助于通过引入有关组大小的辅助信息来纠正不平衡的样本。
后分层的关键是形成正确的群体。如果你可以将人口分成同质群体,使得每个群体中每个人的反应倾向都相同,那么后分层将产生无偏估计。换句话说,如果所有男性都有反应倾向并且所有女性都有相同的反应倾向,按性别分层后将产生无偏见的估计。这个假设被称为同组响应 - 群内假设,我在本章末尾的数学笔记中对此进行了更多描述。
当然,所有男性和所有女性的反应倾向似乎都不一样。然而,随着群体数量的增加,群体内的同质反应倾向变得更加合理。粗略地说,如果您创建更多组,则将群体切割为同类组变得更容易。例如,所有女性都有相同的反应倾向似乎难以置信,但对于所有年龄在18-29岁,大学毕业,生活在加利福尼亚州的女性来说,这似乎更为合理。 。因此,随着分层后使用的组数量变大,支持该方法所需的假设变得更加合理。鉴于这一事实,研究人员经常希望创建大量的群体进行后分层。然而,随着团体数量的增加,研究人员遇到了一个不同的问题:数据稀疏性。如果每组中只有少数人,那么估计将更加不确定,并且在有一个没有受访者的群体的极端情况下,后分层完全崩溃。
在均匀响应 - 组内倾向假设的合理性与每组中合理样本量的需求之间存在两种方式。首先,研究人员可以收集更大,更多样化的样本,这有助于确保每组中合理的样本量。其次,他们可以使用更复杂的统计模型在群体内进行估计。事实上,有时研究人员会同时做这两件事,正如Wang和他的同事们使用Xbox的受访者对他们进行的选举研究所做的那样。
因为他们使用非概率抽样方法进行计算机管理访谈(我将在第3.5节中详细讨论计算机管理访谈),Wang及其同事进行了非常便宜的数据收集,这使他们能够收集345,858名独特参与者的信息。 ,选举投票的标准数量巨大。这种庞大的样本规模使他们能够形成大量的后分层群体。虽然后分层通常涉及将人口分成数百个群体,但Wang和同事将人口分为176,256组,分别按性别(2类),种族(4类),年龄(4类),教育(4类),州(51类),党ID(3类),意识形态(3类),2008年投票(3类)。换句话说,通过低成本数据收集实现的巨大样本量使他们能够在估算过程中做出更合理的假设。
然而,即使有345,858名独特的参与者,仍然有许多团体,王和他的同事几乎没有受访者。因此,他们使用一种称为多级回归的技术来估计每组的支持。从本质上讲,为了估计奥巴马在特定群体中的支持,多层次回归汇集了来自许多密切相关群体的信息。例如,想象一下,试图估计18至29岁的女性西班牙裔美国人对奥巴马的支持,他们是大学毕业生,他们是登记的民主党人,自我认定为温和派,并且在2008年投票支持奥巴马。这是一个非常,非常具体的群体,样本中可能没有人具有这些特征。因此,为了对该组进行估计,多级回归使用统计模型将来自非常相似组的人的估计汇集在一起。
因此,Wang及其同事使用了一种将多级回归和后分层结合起来的方法,因此他们将其策略多级回归称为后分层,或更亲切地称为“先生。 P.“当Wang及其同事使用P.先生从XBox非概率样本中做出估计时,他们的估计非常接近奥巴马在2012年大选中获得的总体支持(图3.8)。事实上,他们的估计比传统的民意调查更准确。因此,在这种情况下,统计调整 - 特别是P.先生 - 似乎在纠正非概率数据的偏差方面做得很好;当您查看未调整的Xbox数据的估计值时,可以清楚地看到偏差。
Wang及其同事的研究有两个主要的教训。首先,未经调整的非概率样本可能导致估计不良;这是许多研究人员之前听过的教训。然而,第二个教训是,非正态样本在正确分析时,实际上可以产生良好的估计;非概率样本不需要自动导致类似文学摘要的惨败。
展望未来,如果您在尝试使用概率抽样方法和非概率抽样方法之间做出决定,那么您将面临一个艰难的选择。有时研究人员需要快速而严格的规则(例如,总是使用概率抽样方法),但提供这样的规则越来越困难。研究人员在实践中的概率抽样方法之间面临着一个艰难的选择 - 这种方法越来越昂贵,远远超出理论上的结果,这些理论结果证明了它们的使用和非概率抽样方法 - 这些方法更便宜,速度更快,但更不熟悉和更多样化。然而,有一点很明显,如果你被迫使用非概率样本或非代表性大数据源(回想第2章),那么有充分的理由相信使用后分层和相关技术将优于未经调整的原始估计。