这部分被设计为用作基准,而不是被理解为叙述。
本章中许多的主题也一直回荡在舆论研究的美国协会(AAPOR)最近的总统地址,如Dillman (2002) Newport (2011) , Santos (2014) ,并Link (2015) 。
有关调查研究的发展更多的历史背景下,看到Smith (1976)和Converse (1987) 。欲了解更多关于调查研究的三个时代的想法,看到Groves (2011)和Dillman, Smyth, and Christian (2008) (其中稍有不同打破了三个时代)。
从第一到第二个时代调查研究过渡内部的峰值Groves and Kahn (1979)这的确之间详细的头对头比较的脸对脸和电话调查, Brick and Tucker (2007)回顾了随机数字拨号抽样方法的历史发展。
欲了解更多如何调查研究,改变了过去以应对社会的变化,看到Tourangeau (2004) , Mitofsky (1989)和Couper (2011) 。
因为有时受访者自己都没有意识到自己的内部状态通过提问了解内部状态可能会产生问题。例如, Nisbett and Wilson (1977)有令人回味的标题一个奇妙的文件:“告诉多于我们可以知道:在心理过程口头报告”在文中作者总结说:“科目有时(一)不知道的该重要的影响的响应的刺激的存在,(b)不知道的存在的响应,以及(c)不知道的刺激影响了反应的“。
对于研究人员应该更喜欢观察到的行为来报道的行为或态度参数,见Baumeister, Vohs, and Funder (2007)心理学)和Jerolmack and Khan (2014)和响应(Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (社会学)。询问和观察也之间的差异产生于经济学,那里的研究人员谈论陈述和显示性偏好。例如,研究人员可以询问受访者是否喜欢吃冰淇淋或去健身房(声明喜好)或研究可以看到人们是如何经常吃冰淇淋,去健身房(显示性偏好)。有一个在经济学某些类型的陈述偏好的数据的深深的怀疑(Hausman 2012)
从这些辩论的一个主要主题是所报告的行为并不总是准确的。但是,自动记录的行为可能是不准确的,可能无法对所关注的样品收集,并且可能无法对研究人员访问。因此,在一些情况下,我认为报告的行为可以是有用的。此外,从这些辩论第二个主题是关于情感,知识,期望和意见报告并不总是准确的。但是,如果是由大约需要这些内部状态的信息的研究人员,或者以帮助解释一些行为或作为说明,则事要求可能是适当的。
有关调查总误差的长篇分析,请参阅Groves et al. (2009)或Weisberg (2005)对于调查总误差的发展历史,看到Groves and Lyberg (2010) 。
在代表性方面,一个伟大的介绍不答复和不答复偏差的问题,是社会科学调查的未回应美国国家研究委员会的报告:研究议程(2013) 。另一个有用的概述所提供(Groves 2006)此外, 杂志官方统计 , 舆论季刊 ,以及政治 和社会科学的美国学院的史册整个特刊已经出版了无反应的话题。最后,还有计算响应率实际上许多不同的方式;这些方法进行了详细舆论研究的美国协会(AAPOR)的一份报告中所述(Public Opinion Researchers} 2015)
1936年文学文摘民意调查作了详细研究(Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012)它也被用来作为一个比喻,警惕随意的数据收集(Gayo-Avello 2011) 1936年,乔治·盖洛普抽样采用了更复杂的形式,并能够用更小的样品产生更准确的估计。盖洛普的成功在文学文摘是一个里程碑调查研究的发展(Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3)
在测量方面,设计调查问卷一个伟大的资源是Bradburn, Sudman, and Wansink (2004) 。对于更先进的治疗上的态度问题特别关注,看到Schuman and Presser (1996) 。更多关于预测试的问题是可Presser and Blair (1994) Presser et al. (2004)和第8章Groves et al. (2009) 。
调查成本和调查误差之间的权衡中的经典,书长度治疗是Groves (2004) 。
标准的概率抽样和估算的经典书长的治疗是Lohr (2009) (更多介绍)和Särndal, Swensson, and Wretman (2003)更先进的)。的后分层和相关方法的经典书长治疗Särndal and Lundström (2005) 。在一些数字时代的设置,研究人员知道了不少关于非受访者中,这是不是经常如此,在过去。不同形式的不答复调整是可能的,当研究人员对非受访者的信息(Kalton and Flores-Cervantes 2003; Smith 2011)
的的Xbox研究Wang et al. (2015)使用一种称为多层次的回归和后分层技术(MRP,有时也被称为“先生P”),允许研究人员对细胞意味着,即使有很多很多的细胞。虽然有关从这项技术估计的质量一些争论,这似乎是一个有前途的领域进行探索。该技术首先被用于Park, Gelman, and Bafumi (2004) ,并出现了后续使用和辩论(Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015)为多个单独的重量和基于细胞的权重之间的连接上看到Gelman (2007) 。
对于其他的方法来加权网络调查,看看Schonlau et al. (2009) , Valliant and Dever (2011)和Bethlehem (2010) 。
样本匹配提出由Rivers (2007) 。 Bethlehem (2015)认为,样本匹配的表现实际上将类似于其他抽样方法(如,分层抽样)和其他调整方式(例如,分层后)。欲了解更多关于网上面板,见Callegaro et al. (2014) 。
有时研究人员发现,机率样本和非概率样本产生类似的质量的估计(Ansolabehere and Schaffner 2014) ,但其他比较人已经发现,非概率的样品做更差(Malhotra and Krosnick 2007; Yeager et al. 2011)一个可能的原因这些差异是,非概率的样品已经随着时间的推移提高。对于非概率抽样方法的更悲观的看法看到非概率抽样的的AAPOR特遣部队(Baker et al. 2013)我也建议你阅读下面的总结报告的评论。
有关权重,以减少非概率样本偏差的影响的荟萃分析,见表2.4 Tourangeau, Conrad, and Couper (2013) ,这导致作者得出结论“的调整似乎是有用的,但犯错误的更正。 。 “。
Conrad and Schober (2008)提供了名为畅想未来的调查采访编辑成册,并解决许多在本节的主题。 Couper (2011)地址类似的主题, Schober et al. (2015)提供了一个如何可能会导致更高质量的数据被调整以适应新的环境数据收集方法很好的例子。
对于使用社会科学调查的Facebook应用程序的另一个有趣的例子,看到Bail (2015) 。
有关进行调查参与者一个愉快而宝贵的经验更多的建议,请参阅量身设计的工作方法(Dillman, Smyth, and Christian 2014) 。
Stone et al. (2007)提供生态瞬时评估和相关的方法的书长度治疗。
Judson (2007)描述的调查和行政数据结合为一体的进程“信息集成”,讨论了这种方法的一些优点,并提供了一些例子。
研究人员可以利用数字跟踪和管理数据的另一种方式是人具体特点抽样框。然而,访问这些记录时使用的抽样框架还可以创建涉及到隐私的问题(Beskow, Sandler, and Weinberger 2006) 。
至于放大问,这种做法是不是新的,因为它可能会从我如何描述过它出现。这种方法具有在基于统计模型的事后分层三大领域深厚的关系(Little 1993) ,估算(Rubin 2004) ,以及小区域估计(Rao and Molina 2015) 。它也涉及使用在医学研究替代变量(Pepe 1992) 。
除了 有关访问数字跟踪数据的伦理问题,放大要价也可以用来推断,人们可能不会选择在调查中透露的敏感特质(Kosinski, Stillwell, and Graepel 2013) 。
在成本和时间估计Blumenstock, Cadamuro, and On (2015)多参考可变成本的一个附加检验和不包括固定费用成本,例如清洁和处理呼叫数据的成本。一般情况下,放大要价可能会具有较高的固定成本和类似的数字实验(见第四章)低可变成本。在使用的数据的详细信息Blumenstock, Cadamuro, and On (2015)纸是Blumenstock and Eagle (2010)和Blumenstock and Eagle (2012)从多个imputuation办法(Rubin 2004)可能有助于从放大的要价估计捕获的不确定性。如果进行放大,要求研究人员只关心总数量,而不是个人层面的特征,然后在方法King and Lu (2008)和Hopkins and King (2010)可能是有用的。欲了解更多关于在机器学习方法Blumenstock, Cadamuro, and On (2015) ,见James et al. (2013) (更多介绍)或Hastie, Tibshirani, and Friedman (2009) (更先进的)。另一种流行的机器学习的教科书是Murphy (2012)
关于丰富询问,结果Ansolabehere和赫什(2012)上的两个关键步骤铰链:1)凯利的许多不同数据源的调查数据相结合,产生一个精确的主数据文件和2)凯利的能力链接到的能力其主数据文件。因此,Ansolabehere和赫什仔细检查每个步骤。
要创建主数据文件,凯利结合和统一不同来源的信息,包括:从每个国家的多个投票记录快照,从地址注册处的邮局的国家变化的数据,以及其他未说明的商业供应商的数据。这一切的清洁和合并如何发生的血淋淋的细节超出了本书的范围,但这个过程中,不管多么小心,将传播在原始数据源错误,会引入误差。虽然凯利愿意讨论其数据处理和提供一些原始数据,这是根本不可能的研究人员回顾整个凯利数据管道。相反,研究人员在一个情况下在凯利数据文件有一些未知的,并且或许不可知,误差的量。这是一个严重的问题,因为批评者可能会推测,在CCES的调查报告,并在凯利主数据文件中的行为之间的巨大差异是由错误在主数据文件引起的,而不是由受访者误报。
Ansolabehere和赫什了两种不同的方法解决数据质量问题。首先,除了自报的投票比较凯利主文件中投票,研究人员还比较自我报告的党,种族,选民登记状态(例如,注册或未注册)并参加表决的方法(例如,在人,缺席投票等),在凯利板的数据库中发现这些值。对于这四个人口变量,研究人员发现更高的水平凯利主文件比在投票调查报告和数据之间的协议。因此,凯利主数据文件似乎有表决权比其他性状高质量的信息,这表明它是整体质量差不。其次,在使用从凯利数据部分,Ansolabehere和赫什发达的县级投票记录质量的三个不同的措施,他们发现,投票过度报告率估计基本上是无关的任何这些数据质量的措施,这一发现建议多报的高利率不是由各县驱动用非常低的数据质量。
鉴于这种主表决文件的创建,潜在的错误的第二源是连接的调查记录到它。例如,如果这个连接被错误地完成它可能导致报道和验证投票行为之间的差的过度估计(Neter, Maynes, and Ramanathan 1965)如果每个人有一个稳定的,唯一的标识符,在两个数据源,然后联动将是微不足道的。在美国和其他大多数国家,然而,不存在通用的标识符。此外,即使有这样的标识符人很可能会犹豫向它提供调查研究人员!因此,凯利不得不使用不完美的标识符,在这种情况下,四片有关每个受访信息做联动:姓名,性别,出生年,和家庭地址。例如,凯利不得不决定是否哥们Ĵ辛普森在CCES是同一个人作为荷马辛普森在自己的主数据文件。在实践中,匹配是一个困难和混乱的过程,而且,使事项的研究人员更糟糕,凯利认为其匹配技术是专有的。
为了验证匹配算法,他们依靠两方面的挑战。首先,凯利参加了由一个独立的,第三方的运行相匹配的竞争:MITRE公司。 MITRE提供的所有参与者2噪音数据文件进行匹配,不同的团队竞争返回MITRE的最佳匹配。由于MITRE自己知道正确的匹配,他们能够得分的球队。 40家公司的竞争中,凯利排在第二位。这种专利技术的独立的第三方评估是相当罕见的,非常有价值的;它应该给我们信心,凯利板的配套程序基本上是一个国家的最先进的。但是是国家的最先进的不够好?除了这种匹配竞争,Ansolabehere和赫什创造凯利自己匹配的挑战。从早期的一个项目,Ansolabehere和赫什收集了从佛罗里达州选民的记录。他们和他们的一些领域的节录到凯利板,然后比较这些领域自身的实际值凯利的报告提供了一些有关这些记录。幸运的是,凯利的报告是接近暂扣值,表明凯利可能部分选民的记录匹配到他们的主数据文件。这两个挑战,一个第三方,另一种由Ansolabehere和赫什,给我们在凯利板匹配算法更有信心,尽管我们无法审查其确切的实现自己。
已经有许多以前曾试图验证投票。对于文学的概述,请参见Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012)和Hanmer, Banks, and White (2014) 。
要注意的是,虽然在这种情况下,研究人员通过数据从凯利质量鼓励,商业供应商的其他评价已经不太热心是重要的。研究人员发现质量较差时,从调查,从营销系统集团消费,文件数据(它本身合并的数据一起从三个供应商:Acxiom公司,百利,和InfoUSA) (Pasek et al. 2014) 。即,数据文件不匹配,研究人员预计是正确的测量的响应,数据文件已缺失了大量的问题,以及丢失的数据模式的数据被关联到报告调查值(换言之丢失数据是系统的,不是随机的)。
欲了解更多有关调查和行政之间的数据记录链接,请参阅Sakshaug and Kreuter (2012)和Schnell (2013) 。欲了解更多有关记录链接一般,看Dunn (1946)和Fellegi and Sunter (1969)历史)和Larsen and Winkler (2014) (现代)。类似的方法也被开发了计算机科学的名称,如重复数据删除,实例标识,名称匹配,重复检测下,并重复记录检测(Elmagarmid, Ipeirotis, and Verykios 2007)也有隐私保护的方法来记录联动不需要的个人身份信息传输(Schnell 2013) 。在Facebook的研究人员开发了一个程序的记录probabilisticsly链接到投票行为(Jones et al. 2013) ;这种联系是为了评估一个实验,我会告诉你在第4章(Bond et al. 2012)
链接大规模社会调查,以政府的行政记录的另一个例子来自健康与退休调查和社会保障局。欲了解更多有关这项研究中,包括有关同意程序的信息,请参阅Olson (1996)和Olson (1999)
行政记录许多来源合并成一个主数据文件,该过程凯利员工,在某些国家政府的统计部门共同的过程。从瑞典统计局两名研究人员写在主题的详细书(Wallgren and Wallgren 2007)对于在美国单县这种做法的一个例子(奥姆斯特德县,明尼苏达州梅奥诊所的家庭),请参阅Sauver et al. (2011) 。欲了解更多关于可以出现在行政记录错误,请参阅Groen (2012)