3.4.3非概率样本:样本匹配

不是所有的非概率的样品是相同的。我们可以在前端添加更多的控制权。

该方法王某和用于估计2012年美国总统大选的结果同事完全取决于数据分析的改进。也就是说,他们收集到尽可能多的响应,因为他们可以,然后试图重新重它们。对用非概率抽样工作的补充策略是有对数据采集过程中加以控制。

部分控制的非概率抽样方法最简单的例子是配额抽样 ,可以追溯到调查研究初期的技术。在配额抽样,研究者划分人群分成不同的群体(例如,年轻人,年轻妇女等)和人数再设置配额每组中被选中。受访者在一个偶然的方式选择,直到研究员每组满足其配额。由于配额制的,由此产生的样品看起来更像是目标人群比将是真实的,否则,而是因为包容的概率是未知的许多研究人员都怀疑配额抽样的。事实上,配额抽样是的原因在1948年美国总统选举“杜威击败杜鲁门”的错误。因为它提供了在采样过程中的一些控制,然而,可以看出配额采样如何可能有超过一个完全不受控制的数据收集一些优势。

超越配额抽样,更现代的方法来控制非概率抽样的过程,现在是可能的。这样的一种方法被称为样本匹配 ,并且它被一些商业在线面板供应商。在其最简单的形式中,样品匹配需要两个数据源:1)人口的整个寄存器和2)的志愿者的大面板。该志愿者不需要来自任何人口概率样本是重要的;强调的是,有可供选择没有要求到面板,我会打电话给它一个肮脏面板 。另外,无论是人口寄存器和脏面板必须包括关于每个人的一些辅助信息,在本例中,我会考虑年龄和性别,但在现实的情况下,这种辅助信息可能会更加详细。样本匹配的诀窍是在生产的样品看起来像概率样本的方式来选择一个肮脏的面板样品。

当一个模拟的概率样本是从人口登记采取样本匹配开始;这个模拟的样品成为目标样本 。然后,根据该辅助信息中,目标样品中的情况下,在脏面板相匹配的人,以形成匹配的样品 。例如,如果有一个25岁的女性目标样品中,那么研究者发现从脏面板一个25岁的女性为匹配样本。最后, 匹配的样品的成员面谈,以产生最后一组受访者。

虽然匹配的样品看起来像目标样本,需要记住的是匹配的样本不是概率抽样是非常重要的。匹配样本只能匹配的已知的辅助信息(例如,年龄和性别)的目标样品,但不能在未测量的特征。例如,如果人们脏面板上的往往是较差的,毕竟,一个原因加入调查小组是为了赚钱,那么就算匹配的样品看起来像目标样品中的年龄和性别仍然会有条款对贫困人群的偏见。真正的概率抽样的魔力是排除上测量和不可测的特性的问题(一个点,与我们从第2章中的观察性研究因果推理匹配的讨论一致)。

在实践中,样本匹配取决于有一个大的和多样化的面板急于完成调查,因此它主要由公司能够负担得起的开发和维护这样一个小组完成的。另外,在实践中,可以有与匹配(有时良好匹配的人靶样品在面板上不存在)和非应答(有时人匹配的样品中拒绝参与调查)的问题。因此,在实践中,研究人员在做样品匹配也执行某种分层后调整,以使估计。

这是很难提供有关样品匹配有用的理论保证,但在实践中它可以表现良好。例如,斯蒂芬Ansolabehere和布赖恩·沙夫纳(2014)邮件,电话,并使用样本匹配和分层后调整互联网面板:采用三种不同的采样和面试方法相比,在2010年进行的约1000人三个平行的调查。从三种方法的估计十分相似,从高品质的基准,如当前人口调查(CPS)和国民健康访问调查(NHIS)的估计。更具体地讲,无论是互联网和邮件调查是关闭的平均3个百分点,在电话调查是关闭的4个百分点。这个错误大约为什么人会从约1000人样本的期望。虽然没有产生显着更好的数据这两种模式,无论是互联网和电话调查(其中花费数天或数周)均大大快于较场邮件调查(这花了8个月),和互联网调查,其中使用的样本匹配,比其他两种模式更便宜。

总之,社会科学家和统计学家是令人难以置信的怀疑从这些非概率样本推断,部分原因是它们与调查研究的一些令人尴尬的失败,如文学文摘民意调查有关。在某种程度上,我同意这种怀疑:未经调整的非概率样本可能产生不好的估计。但是,如果研究人员可以调整在采样过程中(例如,分层后)的偏见或稍微控制采样过程(如,样本匹配),它们可以产生更好的估计,甚至足够的质量对于大多数用途的估计。当然,这将是更好地做到完美执行的概率抽样,但是这似乎不再是一个现实的选择。

两个非概率样品和概率样品中​​的质量变化,并且目前很可能从概率的样品最估计比由非概率的样品的估计更值得信赖的情况。但是,即使是现在,从实施良好的非概率样本估计可能比不良的概率进行估计的样本更好。此外,非概率样品基本上便宜。因此,看来,概率与非概率抽样提供了一个成本 - 质量权衡(图3.6)。展望未来,我期望从做得好的非概率样本估计会变得更便宜,更好。此外,由于在座机电话调查和不答复率持续上升的崩溃,我预计概率样本将变得更加昂贵和低质量的。因为这些长期趋势,我认为非概率抽样将成为调查研究的第三代越来越重要。

图3.6:在实践和非概率抽样概率抽样都是大型的,异构的类别。在一般情况下,存在一个成本误差权衡非概率抽样是低级成本,但更高的错误。然而,做得好的非概率抽样可以产生比很差,做概率抽样更好的估计。在未来,我希望非概率抽样将会得到更好,更便宜,而概率抽样会变得更糟,更昂贵。

图3.6:在实践和非概率抽样概率抽样都是大型的,异构的类别。在一般情况下,存在一个成本误差权衡非概率抽样是低级成本,但更高的错误。然而,做得好的非概率抽样可以产生比很差,做概率抽样更好的估计。在未来,我希望非概率抽样将会得到更好,更便宜,而概率抽样会变得更糟,更昂贵。