2.3.1.1

大数据集是达到目的的一种手段;他们不是目的本身。

第一个大数据的三个好特性所讨论的大多数:这些都是数据。这些数据源可以在三种不同的方式大:很多人来说,大量的信息每人,或随着时间的推移很多意见。有一个大的数据集使某些特定类型的研究测量的异质性,研究罕见的事件,检测小的差异,并从观测数据作出估算因果关系。这也似乎导致了特定类型的草率。

为此大小是特别有用的第一件事就是超越平均水平,使特定亚群的估计。例如,加里·王,潘珍妮弗和罗伯特莫莉(2013)测量的概率,在中国社交媒体文章将得到政府的审查。就其本身而言删除这个平均概率是不理解为什么政府审查一些帖子,而不是其他非常有帮助。但是,因为他们的数据包括1100万的帖子,国王和他的同事还为送检的85单独的类别(例如,色情,西藏,并在北京交通)职位概率估计。通过比较审查为不同类别职位的概率,他们能够更加了解政府如何以及为何审查某些类型的帖子。随着11000个职位(而超过1100万个),他们就不会已经能够生产这些特定类别的估计。

其次,大小是罕见的事件正在研究特别有用。例如,戈埃尔和他的同事(2015)要研究不同的方式,微博可以去病毒。由于重新鸣叫的大瀑布是在一个极为罕见,大约3000 - 他们需要的,以便找到适合他们的分析足够大瀑布学习超过十亿鸣叫。

三,大型数据集使研究人员能够检测小的差异。事实上,许多专注于行业大数据是这些小的差异:可靠地检测上的广告1%和1.1%的点击率之间的差异可以转化为上百万美元的额外收入。在一些科学设置,例如小的差异可能不是特别重要的(即使它们是统计学显著)。但是,在一些策略设置,比如小的差异可以在聚合观察时变得重要。例如,如果有两个公共卫生干预和一个比另一个稍微更有效,然后切换到更有效的干预可能最终会节省数千额外的生命。

最后,大数据集大大提高我们从观测数据做出因果关系的估计能力。虽然大数据集不从根本上改变与观测数据做出因果推论,匹配和自然实验,两种技术,研究人员制作从观察因果索赔开发的数据都极大地从大型数据集受益的问题。我会解释,后来更详细地说明这种说法这一章时,我描述了研究策略。

虽然浆液一般为正确使用一个很好的财产,我注意到,就是大型通常导致概念上的错误。出于某种原因,就是大型似乎导致研究者忽视是如何生成它们的数据。而就是大型确实降低了必要担心随机误差,它实际上增加了无需担心系统误差,该种我将更下面描述错误的偏见,从发生于如何创建和收集的数据。在一个小数据集,两个随机误差和系统误差可能是重要的,但在大的数据集的随机误差可以被平均距离和系统误差占主导地位。不考虑系统误差最终会使用他们的大型数据集来获得错误的东西准确估计谁的研究人员;他们将是不准确的精确 (McFarland and McFarland 2015)