本章中的许多主题也在美国公共舆论研究协会(AAPOR)最近的总统演讲中得到了回应,例如Dillman (2002) , Newport (2011) , Santos (2014)和Link (2015) 。
有关调查研究和深度访谈之间差异的更多信息,请参阅Small (2009) 。与深度访谈相关的是一系列称为民族志的方法。在人种学研究中,研究人员通常会在参与者的自然环境中花费更多的时间。有关人种学和深度访谈之间差异的更多信息,请参阅Jerolmack and Khan (2014) 。有关数字民族志的更多信息,请参阅Pink et al. (2015) 。
我对调查研究历史的描述非常简短,不包括许多令人兴奋的发展。有关更多历史背景,请参阅Smith (1976) , Converse (1987)和Igo (2008) 。有关三个时代调查研究的更多信息,请参阅Groves (2011)和Dillman, Smyth, and Christian (2008) (其中三个时代略有不同)。
Groves and Kahn (1979)通过在面对面和电话调查之间进行详细的头对头比较,从调查研究的第一个时代到第二个时代的过渡。 ( ??? )回顾随机数字拨号采样方法的历史发展。
有关调查研究过去如何应对社会变化的变化,请参阅Tourangeau (2004) , ( ??? )和Couper (2011) 。
询问和观察的优势和劣势进行了辩论心理学家(例如, Baumeister, Vohs, and Funder (2007)和社会学家(如Jerolmack and Khan (2014) Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) ; Jerolmack and Khan (2014) ],询问,并观察之间的差异产生于经济学,那里的研究人员谈论陈述和显示性偏好。例如,研究人员可以询问受访者是否喜欢吃冰淇淋或去健身房。 (陈述偏好),或者可以观察人们吃冰淇淋和去健身房的频率(显示偏好)。对于经济学中某些类型的陈述偏好数据存在深刻的怀疑,如Hausman (2012) 。
这些辩论的主题是报告的行为并不总是准确的。但是,正如第2章所述,大数据源可能不准确,可能无法收集到感兴趣的样本,研究人员可能无法访问它们。因此,我认为,在某些情况下,报告的行为可能很有用。此外,这些辩论的第二个主题是关于情绪,知识,期望和意见的报道并不总是准确的。但是,如果研究人员需要有关这些内部状态的信息 - 要么帮助解释某些行为,要么作为要解释的事情 - 那么询问可能是恰当的。当然,通过提问来了解内部状态可能会有问题,因为有时受访者本身并不了解他们的内部状态(Nisbett and Wilson 1977) 。
Groves (2004)第1章很好地协调了调查研究人员使用的偶尔不一致的术语来描述总调查错误框架。有关总调查错误框架的书籍处理,请参阅Groves et al. (2009) ,以及历史概述,见Groves and Lyberg (2010) 。
将错误分解为偏差和方差的想法也出现在机器学习中;例如,参见Hastie, Tibshirani, and Friedman (2009)第7.3节。这通常会导致研究人员谈论“偏差 - 方差”权衡。
在代表性方面,对无应答和无应答偏见问题的一个很好的介绍是国家研究委员会报告“社会科学调查中的无应答:研究议程” (2013) 。 Groves (2006)提供了另一个有用的概述。此外, “官方统计杂志” ,“ 公众舆论季刊 ”和“美国政治和社会科学学会年刊”的全部特刊已发表在不答复专题上。最后,实际上有许多不同的计算响应率的方法;在美国公共舆论研究者协会(AAPOR) ( ??? )的报告中详细描述了这些方法。
有关1936年文学文摘民意调查的更多信息,请参阅Bryson (1976) , Squire (1988) , Cahalan (1989)和Lusinchi (2012) 。关于这次民意调查的另一个讨论,作为对随意数据收集的比喻警告,见Gayo-Avello (2011) 。 1936年,乔治盖洛普使用了更复杂的抽样方法,并且能够以更小的样本生成更准确的估计。盖洛普在“ 文学摘要”上的成功是调查研究发展的里程碑,如@ converse_survey_1987第3章所述。 Ohmer (2006)第4章Ohmer (2006) ;和@igo_averaged_2008的第3章。
在测量方面,设计调查问卷的首要资源是Bradburn, Sudman, and Wansink (2004) 。对于更高级的治疗方法,请参阅专门针对态度问题的Schuman and Presser (1996) ,以及更为一般的Saris and Gallhofer (2014) 。在心理测量学中采用略微不同的测量方法,如( ??? ) 。有关预测试的更多信息可参见Presser and Blair (1994) , Presser et al. (2004)和Groves et al. (2009)第8章Groves et al. (2009) 。有关调查实验的更多信息,请参见Mutz (2011) 。
在成本方面, Groves (2004)对调查成本和调查误差之间的权衡进行了经典的书本处理。
标准概率抽样和估计的两种经典书籍长度处理是Lohr (2009) (更多入门)和Särndal, Swensson, and Wretman (2003) (更高级)。 Särndal and Lundström (2005)对后分层及相关方法进行了经典的书籍处理。在一些数字时代的环境中,研究人员对无回应者有很多了解,这在过去并不常见。如Kalton and Flores-Cervantes (2003)和Smith (2011)所述,当研究人员获得有关无应答者的信息时,可能会有不同形式的无应答调整。
W. Wang et al. (2015)的Xbox研究W. Wang et al. (2015)使用一种称为多级回归和后分层(“P先生”)的技术,即使有许多组,研究人员也可以估计组均值。尽管对这种技术的估算质量存在争议,但它似乎是一个值得探讨的领域。该技术首先在Park, Gelman, and Bafumi (2004) ,并且随后使用和辩论(Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) 。有关个体重量和组重量之间关系的更多信息,请参阅Gelman (2007) 。
有关加权网络调查的其他方法,请参阅Schonlau et al. (2009) , Bethlehem (2010) ,以及Valliant and Dever (2011) 。在线面板可以使用概率抽样或非概率抽样。有关在线面板的更多信息,请参阅Callegaro et al. (2014) 。
有时,研究人员发现概率样本和非概率样本产生相似质量的估计(Ansolabehere and Schaffner 2014) ,但其他比较发现非概率样本的情况更糟(Malhotra and Krosnick 2007; Yeager et al. 2011) 。这些差异的一个可能原因是非概率样本随着时间的推移而得到改善。有关非概率抽样方法的更悲观观点,请参阅AAPOR非概率抽样特别工作组(Baker et al. 2013) ,我还建议阅读摘要报告后面的评论。
Conrad and Schober (2008)是一本题为“展望未来调查访谈 ”的编辑卷,它提供了关于提问问题未来的各种观点。 Couper (2011)提出了类似的主题, Schober et al. (2015)提供了一个很好的例子,说明为新设置量身定制的数据收集方法如何能够产生更高质量的数据。 Schober and Conrad (2015)提出了一个更为普遍的论点,即继续调整调查研究的过程以适应社会的变化。
Tourangeau and Yan (2007)回顾了敏感问题中社会期望偏差的问题, Lind et al. (2013)提供了人们可能在计算机管理的访谈中披露更多敏感信息的一些可能原因。有关人类访调员在提高调查参与率方面的作用的更多信息,请参阅Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013)和Schaeffer et al. (2013) 。有关混合模式调查的更多信息,请参阅Dillman, Smyth, and Christian (2014) 。
Stone et al. (2007)提供了生态瞬时评估和相关方法的书籍处理。
有关为参与者提供有趣和宝贵经验的更多建议,请参阅定制设计方法(Dillman, Smyth, and Christian 2014) 。有关使用Facebook应用程序进行社会科学调查的另一个有趣示例,请参阅Bail (2015) 。
Judson (2007)描述了将调查和行政数据结合起来作为“信息集成”的过程,并讨论了这种方法的一些优点,并提供了一些例子。
关于丰富的询问,以前有许多尝试验证投票。有关该文献的概述,请参阅Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , Berent, Krosnick, and Lupia (2016) 。参见Berent, Krosnick, and Lupia (2016)对Ansolabehere and Hersh (2012)提出的结果持更加怀疑的看法。
值得注意的是,尽管Ansolabehere和Hersh受到了Catalist数据质量的鼓舞,但其他商业供应商的评估却不那么热情。 Pasek et al. (2014)发现,调查数据与Marketing Systems Group的消费者文件(其本身合并来自三家提供商的数据:Acxiom,Experian和InfoUSA)的质量很差。也就是说,数据文件与研究人员预期的正确的调查回复不匹配,消费者文件缺少大量问题的数据,缺失的数据模式与报告的调查值相关(换句话说,缺失数据是系统的,而不是随机的)。
有关调查与行政数据之间记录联系的更多信息,请参阅Sakshaug and Kreuter (2012)和Schnell (2013) 。有关记录链接的更多信息,请参阅Dunn (1946)和Fellegi and Sunter (1969) (历史)以及Larsen and Winkler (2014) (现代)。在计算机科学中也已经开发了类似的方法,例如重复数据删除,实例识别,名称匹配,重复检测和重复记录检测(Elmagarmid, Ipeirotis, and Verykios 2007) 。还有保护隐私的方法来记录链接,不需要传输个人识别信息(Schnell 2013) 。 Facebook的研究人员开发了一种程序,用于概率地将他们的记录与投票行为联系起来(Jones et al. 2013) ;这种联系是为了评估我将在第4章中告诉你的实验(Bond et al. 2012) 。有关获得记录链接同意的更多信息,请参阅Sakshaug et al. (2012) 。
将大规模社会调查与政府行政记录联系起来的另一个例子来自健康与退休调查和社会保障管理局。有关该研究的更多信息,包括有关同意程序的信息,请参阅Olson (1996, 1999) 。
将许多行政记录来源合并到主数据文件中的过程 - 凯利板使用的过程 - 在一些国家政府的统计办公室中很常见。来自瑞典统计局的两位研究人员撰写了一本关于这一主题的详细书籍(Wallgren and Wallgren 2007) 。有关这种方法的一个例子,在美国的一个县(明尼苏达州奥姆斯特德县;梅奥诊所的所在地),请参阅Sauver et al. (2011) 。有关可出现在管理记录中的错误的更多信息,请参阅Groen (2012) 。
研究人员在调查研究中使用大数据源的另一种方式是作为具有特定特征的人的抽样框架。不幸的是,这种方法可能引发与隐私相关的问题(Beskow, Sandler, and Weinberger 2006) 。
关于放大的问题,这种方法并不像我描述的那样新。它与统计学中的三个大区域有着深刻的联系:基于模型的后分层(Little 1993) ,估算(Rubin 2004)和小面积估计(Rao and Molina 2015) 。它还与在医学研究中使用替代变量有关(Pepe 1992) 。
Blumenstock, Cadamuro, and On (2015)的成本和时间估算更多地涉及可变成本 - 一次额外调查的成本 - 并且不包括固定成本,例如清洁和处理呼叫数据的成本。一般而言,放大询问可能具有高固定成本和低可变成本,类似于数字实验(见第4章)。有关发展中国家基于移动电话的调查的更多信息,请参阅Dabalen et al. (2016) 。
关于如何更好地扩大询问的想法,我建议学习更多关于多重插补的知识(Rubin 2004) 。此外,如果研究人员进行扩大询问总体计数而不是个体水平特征,那么King and Lu (2008)以及Hopkins and King (2010)可能是有用的。最后,有关Blumenstock, Cadamuro, and On (2015)机器学习方法的更多信息,请参阅James et al. (2013) (更多介绍)或Hastie, Tibshirani, and Friedman (2009) (更高级)。
关于扩大询问的一个伦理问题是,它可以用于推断人们可能不会选择在Kosinski, Stillwell, and Graepel (2013)描述的调查中揭示的敏感特征。