非代表性的两个来源是不同的人群和不同的使用模式。
大数据往往会在两个主要方面进行系统性偏差。此不必导致对所有类型的分析的问题,但对于某些分析它可以是一个致命的缺陷。
系统性偏差的第一个来源是抓住了人们通常既不所有人一个完整的宇宙或任何特定人群的随机样本。例如,在Twitter上美国人不是美国人随机抽样(Hargittai 2015)系统性偏差的第二个来源是,许多大数据系统捕获的行动,有的人很多贡献比其他人更多的行动。例如,有些人在Twitter上数以百计的贡献比其他倍以上的鸣叫。因此,在特定平台上的事件可以是更加严重的反射某些亚组比平台本身。
通常研究人员想知道了很多关于他们拥有的数据。但是,由于大数据的非代表性,是有帮助的也翻转你的思维。你还需要知道很多关于你没有数据。当你没有的数据是从您确实有数据系统不同,这一点尤其如此。例如,如果你从一个手机公司在发展中国家的通话记录,你应该考虑不仅仅是在数据集中的人,但也对谁可能是太穷了,拥有手机的人们。此外,在第3章中,我们将了解如何权重可以使研究人员能够从非代表性的数据做出更好的估计。