无论多么“大”的“大数据”,它可能没有你想要的信息。
多数大数据源是不完整的,在某种意义上说,他们没有,你将要为你的研究信息。这是比研究其他目的创建的数据的一个共同特点。许多社会科学家已经与不完全处理,如将现有的调查认为没有问你想问题的经验。不幸的是,不完整的问题,往往是在大数据更为极端。根据我的经验,大数据往往缺少三种类型的信息社会研究有用:人口统计,在其他平台上的行为和数据,以实施理论建构。
所有这三种形式的不完全的一项研究Gueorgi Kossinets和邓肯瓦中说明(2006)对社会网络在一所大学的进化。 Kossinets和Watts开始从大学的电子邮件日志,其中有关于谁在什么时间发送电子邮件给谁(研究人员并没有进入邮件内容)的精确信息。这些电子邮件记录听起来像一个惊人的数据,但是,他们,尽管他们的规模和粒度,根本不完整。例如,邮件日志不包括有关学生的人口特征,如性别和年龄数据。此外,邮件日志不包括有关通过其它媒体,如电话,短信,或面对面的交谈面对通信信息。最后,邮件日志不直接包括有关的关系,在许多现有理论的理论结构的信息。在本章后面,当我谈到的研究策略,你会看到Kossinets和Watts是如何解决这些问题。
3种不完整的,不完整的数据,以实施理论结构问题是解决最难的,在我的经验,它往往是偶然的数据科学家忽视。粗略地说, 理论结构是抽象的概念,社会科学家研究,但不幸的是,这些结构往往不能明确界定和衡量。例如,假设试图实证检验的看似简单的要求,人们谁更聪明赚更多的钱。为了测试这种说法,你需要衡量的“情报”。但是,什么是智慧?例如, Gardner (2011)认为,其实有八个不同形式的智力。并且,是否有程序,可以准确地测量任何这些形式的智力的?尽管心理学家巨额的工作,这些问题还没有明确的答案。因此,即使一个相对简单的索赔,人谁更智能挣更多的钱,可很难凭经验估计,因为它是很难的数据,以实施理论建构。社会科学家的理论构造,是重要的,但难以操作包括“规范”,“社会资本”和“民主的其他例子。”打电话的理论结构和数据结构效度之间的比赛(Cronbach and Meehl 1955)而且,随着结构的这份名单表明,结构效度是一个问题,社会科学家已经为此奋斗了很长一段时间,甚至当他们与已收集研究的目的数据的工作。当收集的研究比其他目的的数据时,结构效度的问题更具挑战性(Lazer 2015) 。
当你正在阅读的研究论文,一是快速而有效的方法来评估有关构想效度的担忧是取纸,通常是在构造的角度表达的主要主张,以及所使用的数据方面重新表达出来。例如,考虑两个假设的研究,声称显示,越来越聪明的人赚更多的钱:
在这两种情况下,研究人员可以断言,他们已经表明,更聪明的人赚更多的钱。但是,在第一项研究的理论结构是公由数据操作性,并且在第二它们不是。此外,这个例子表明,更多的数据并不会自动解决的结构效度的问题。是否涉及上百万鸣叫,一个十亿鸣叫,或一万亿鸣叫,你应该怀疑研究2的结果。对于研究人员来说并不熟悉的结构效度的思路,表2.2提供了那些操作性使用数字跟踪数据理论结构研究的一些例子。
数字跟踪 | 理论建构 | 引文 |
---|---|---|
从一所大学的电子邮件记录(仅元数据) | 社会关系 | Kossinets and Watts (2006) Kossinets and Watts (2009) De Choudhury et al. (2010) |
在微博上的社交媒体帖子 | 公民参与 | Zhang (2016) |
从公司邮件日志(元数据和完整文本) | 文化适应在一个组织 | Goldberg et al. (2015) |
虽然投入运作理论结构的不完整数据的问题是相当困难的解决,也有以不完整的人口统计信息和其他平台上的行为不完整信息的问题三种常见的解决方案。第一个是实际收集你需要的数据;我会告诉你在第3章的的那个例子,当我告诉你有关的调查。不幸的是,这种数据收集不总是可能的。第二个主要的解决办法是做什么数据科学家称之为用户属性的推理和什么样的社会科学家们称之为归集 。在这种方法中,研究人员使用它们对一些人的信息来推断其他人的属性。第三个可能的解决方案的由Kossinets和使用的一个瓦-是多个数据源相结合。这个过程有时被称为合并或记录链接 。我最喜欢这个过程比喻,提出在有史以来记录联动第一篇论文的第一段(Dunn 1946) :
“每个人在世界上创造生命的一本书。这本书开始出生和死亡结束。其网页是由生活中的原则事件的记录。记录链接是给组装此书页成卷的过程中的名字“。
这段话写于1946年,在那个时候,人们认为生命之书可能包括重大的生活事件,如出生,结婚,离婚和死亡。然而,现在关于人这么多的信息被记录,生命之书可能是一个令人难以置信的详细的画像,如果这些不同的网页(即我们的数字的痕迹),可以绑定在一起。人生这本书可能是研究人员一个很好的资源。但是,生命之书也可称为废墟的数据库 (Ohm 2010)它可以用于各种不道德的目的,下面我谈一谈低于大数据来源收集信息的敏感性质描述的多并在第6章(伦理)。