尽管它可能是肮脏的,丰富的要价可厉害了。
不同的方法来处理数字跟踪数据的不完备性是直接调查数据,我会打电话问充实的过程丰富它。丰富要价的一个例子是的研究Burke and Kraut (2014) ,这是我在本章前面描述(第3.2节),是否在Facebook上的互动增加了友谊的力量。在这种情况下,伯克和克劳特结合实日志数据的调查数据。
伯克和克劳特是在工作的环境,但是,这意味着他们没有处理,研究人员做询问充实面对两大问题。首先,居然连在一起的数据集,这个过程被称为记录链接 ,记录在一个数据集的匹配与下面这个问题的其他数据集,是很困难的,而且容易出错(我们将看到一个例子相应的记录)。富集询问的第二个主要问题是,数字迹线的质量将经常是困难的研究人员评估。例如,有时通过它被收集过程是专有的并且可能容易受到许多的第2章所述换言之的问题,富集要价将经常涉及调查来的未知的黑箱的数据源的容易出错的联质量。尽管这两个问题提出的关注,它有可能与这一战略是由Stephen Ansolabehere和埃坦·赫什被证明进行重要的研究(2012)在其对美国投票模式的研究。这是值得去在这个研究中的一些细节,因为许多Ansolabehere和赫什开发将是丰富的问其他应用程序非常有用的策略。
选民投票率一直在政治学的广泛研究的主题,而在过去,研究人员是谁投票,为什么已普遍基于调查数据的分析理解。在美国的投票,但是,在政府记录每个公民是否已经投票的异常行为(当然,政府并没有记录谁对每一个公民投票)。多年来,这些政府的投票纪录,是可利用的在纸上的形式,散落在全国各地的各地方政府办公室。这使得它很难,但不是不可能,政治学家有选民的全貌,并比较什么人在调查中说,有关投票自己的实际投票行为(Ansolabehere and Hersh 2012)
但是,现在这些投票记录已经被数字化,以及一些私营公司已经系统地收集并合并这些投票记录产生全面掌握投票文件记录所有美国人的投票行为。 Ansolabehere和赫什与这些公司 - 凯利之一LCC-才能使用他们的主人表决文件,以帮助开发选民更好的画面合作。此外,因为它依赖于收集和一个公司策划数字记录,它提供了许多优于由研究人员所作的努力,已被没有公司的助剂和使用模拟记录完成的优点。
像许多在第2章数字跟踪源,凯利主文件并没有包含太多的那Ansolabehere和赫什所需要的人口,态度和行为的信息。除了这个信息,Ansolabehere和赫什是在比较报告投票行为来验证投票行为(即在凯利板数据库中的信息)特别感兴趣。因此,研究人员收集的,他们希望作为合作国会选举研究(CCES),大型社会调查的一部分数据。接下来,研究人员给这些数据凯利和凯利给了研究人员备份,包括有效的投票行为(从凯利)合并数据文件时,自报的投票行为(从CCES)和人口统计学和受访者的态度(从CCES )。换句话说,Ansolabehere和赫什富含调查数据投票数据,合并后的文件使他们能够做一些事情,无论是文件单独启用。
通过丰富调查数据凯利主数据文件,Ansolabehere和赫什来到三个重要结论。首先,过度报告投票猖獗:非选民将近一半报道投票。或者,看它的另一种方式是,如果有人举报的投票中,只有80%的机会,他们居然投了反对票。其次,过度报告不是随机的;过度报告是较为常见的高收入之间,受过良好教育,谁是从事公共事务的党羽。换句话说,谁最有可能投票的人也最有可能撒谎投票。第三,也是最关键的,因为过度的报告,选民和非选民之间的实际差异比他们通过调查才出现小的系统性。例如,那些具有学士学位大约22个百分点,更可能报告投票,但只有10个百分点,更可能实际投票。此外,投票的现有资源为基础的理论是在预测谁将会比究竟是谁投票,实证发现,呼唤新的理论来理解和预测报告投票表决好得多。
但是,有多少要我们相信这些结果?记住,这些结果取决于容易出错链接到黑匣子的数据与未知数量的错误。更具体地,其结果取决于两个关键的步骤:1)凯利的许多不同的数据源相结合,以产生一个准确的主数据文件和2)凯利的调查数据链接到它的主数据文件的能力的能力。每个步骤是相当困难的,在任一步错误可能导致研究者错误的结论。但是,这两个数据处理和匹配对凯利的继续存在作为一个公司的关键,因此它可以在解决这些问题投入资源,往往规模,研究人员的任何个人学术研究或组可以比拟的。在本章结尾的进一步阅读,我更加详细地介绍如何Ansolabehere和赫什建立其结果的可信度这些问题。尽管这些细节是特定于本研究中,类似这些问题将对于希望链接到暗箱数字跟踪数据源的其他研究人员产生。
什么是一般的经验教训的研究人员可以从这项研究得出?首先,从丰富的数字痕迹调查数据巨大的价值。第二,即使这些聚集,商业数据源不应该被认为是“地面实况”,在一些情况下,它们可能是有用的。事实上,最好是比较这些数据源不是绝对真理(从他们总是功亏一篑)。相反,它是最好把它们比其他可用的数据源,这总是有误差也是如此。