2.3.6非代表性

非代表性数据不适用于样本外泛化,但对于样本内比较非常有用。

一些社会科学家习惯于使用来自明确定义的人群的概率随机样本的数据,例如特定国家的所有成年人。这种数据称为代表性数据,因为样本“代表”较大的人口。许多研究人员对代表性数据进行了奖励,而对某些人而言,代表性数据与严谨的科学同义,而非代表性数据则与邋。同义。在最极端的情况下,一些怀疑论者似乎认为,从非代表性数据中无法学到任何东西。如果这是真的,这似乎严重限制了从大数据源可以学到的东西,因为它们中的许多都是非代表性的。幸运的是,这些怀疑论者只是部分正确。有一些研究目标,非代表性数据显然不太适合,但有些其他实际上可能非常有用。

为了理解这种区别,让我们考虑一下科学经典:John Snow对1853-54伦敦霍乱疫情的研究。当时,许多医生认为霍乱是由“空气不好”引起的,但斯诺认为这是一种传染病,可能是由带有污水的饮用水传播的。为了测试这个想法,斯诺利用了我们现在称之为自然实验的东西。他比较了两家不同水务公司的家庭霍乱率:Lambeth和Southwark&Vauxhall。这些公司为类似的家庭提供服务,但他们在一个重要方面有所不同:1849年 - 在流行病开始前几年 - 兰贝斯将其进水点从伦敦的主要污水排放口上游移开,而南华克和沃克斯豪尔将其进水管从其下游离开污水排放。当Snow比较两家公司服务的家庭中霍乱的死亡率时,他发现Southwark&Vauxhall(向客户提供污水污染的公司)的客户死于霍乱的可能性是其10倍。这一结果为斯诺关于霍乱原因的争论提供了有力的科学依据,尽管它并非基于伦敦人的代表性样本。

然而,这两家公司的数据对于回答一个不同的问题并不理想:爆发期间伦敦的霍乱流行情况如何?对于那个同样重要的第二个问题,从伦敦获得一份代表性样本会更好。

正如斯诺的工作所表明的那样,有一些科学问题,非代表性数据可以非常有效,还有一些不适合。区分这两类问题的一种粗略方法是,一些问题是关于样本内的比较,一些问题是关于样本外的概括。流行病学的另一项经典研究可以进一步说明这种区别:英国医生研究,它在证明吸烟导致癌症方面发挥了重要作用。在这项研究中,Richard Doll和A. Bradford Hill在大约25,000名男医生的陪同下进行了数年,并根据他们在研究开始时吸烟的数量来比较他们的死亡率。 Doll和Hill (1954)发现了一种强烈的暴露 - 反应关系:吸烟的人越多,他们死于肺癌的可能性就越大。当然,基于这组男性医生估计所有英国人中肺癌的患病率是不明智的,但样本内的比较仍然提供了吸烟导致肺癌的证据。

现在我已经说明了样本内比较和样本外概括之间的区别,有两点需要注意。首先,自然存在一个问题,即英国男性医生样本中的关系在多大程度上也存在于女性,英国医生或英国男性工厂工人或德国女性工厂工人或许多其他群体的样本中。这些问题既有趣又重要,但它们与我们可以从样本到人口的概括程度的问题不同。例如,请注意,您可能怀疑在英国男性医生中发现的吸烟与癌症之间的关系可能在这些其他组中相似。你做这种推断的能力并不是因为英国男性医生是来自任何人群的概率性随机样本;相反,它来自对吸烟与癌症联系起来的机制的理解。因此,从样本到抽取人口的概括在很大程度上是一个统计问题,但是关于在一个群体中发现的模式到另一个群体的可运输性的问题在很大程度上是非(Pearl and Bareinboim 2014; Pearl 2015)问题(Pearl and Bareinboim 2014; Pearl 2015)

在这一点上,怀疑论者可能会指出,大多数社交模式可能不像吸烟和癌症之间的关系那样可以跨群体运输。并且我同意。我们应该期望模式可以运输的程度最终是一个必须根据理论和证据来决定的科学问题。不应该自动假设模式是可移动的,但也不应该假设它们不可移动。如果您已经通过研究本科生可以了解研究人员可以了解人类行为的争论(Sears 1986, [@henrich_most_2010] )那么这些关于可运输性的抽象问题将会让您熟悉。然而,尽管存在这些争论,但研究人员无法从研究本科生中学到任何东西是不合理的。

第二个警告是,大多数具有非代表性数据的研究人员并不像Snow或Doll和Hill那样谨慎。因此,为了说明当研究人员尝试从非代表性数据进行样本外推广时会出现什么问题,我想告诉你关于Andranik Tumasjan及其同事(2010)对2009年德国议会选举的研究。通过分析超过10万条推文,他们发现提及政党的推文比例与该党在议会选举中获得的投票比例相符(图2.3)。换句话说,基本上免费的Twitter数据似乎可以取代传统的民意调查,因为它们强调代表性数据,因此很昂贵。

鉴于您可能已经了解Twitter,您应该立即对此结果持怀疑态度。 2009年推特上的德国人不是德国选民的概率性随机样本,一些政党的支持者可能比其他政党的支持者更频繁地发布关于政治的推文。因此,令人惊讶的是,您可以想象的所有可能的偏见都会以某种方式抵消,以便这些数据直接反映德国选民。事实上, Tumasjan et al. (2010)的结果Tumasjan et al. (2010)结果证明是太好了,不可能是真的。 Andreas Jungherr,PascalJürgens和Harald Schoen (2012)的后续报告指出,原始分析排除了实际上在Twitter上获得最多提及的政党:海盗党,一个打击政府监管的小党派互联网当海盗党被纳入分析时,Twitter提到了选举结果的可怕预测因子(图2.3)。正如此示例所示,使用非代表性大数据源进行样本外泛化可能会出错。此外,您应该注意到,有100,000条推文的事实基本上无关紧要:许多非代表性数据仍然不具代表性,这是我在讨论调查时将在第3章中回归的主题。

图2.3:Twitter提及似乎预测了2009年德国大选的结果(Tumasjan et al.2010),但这不包括提到最多的一方:海盗党(Jungherr,Jürgens和Schoen 2012)。见Tumasjan等人。 (2012年)支持排除海盗党的论点。改编自Tumasjan等人。 (2010),表4和Jungherr,Jürgens和Schoen(2012),表2。

图2.3:Twitter提及似乎预测了2009年德国大选的结果(Tumasjan et al. 2010) ,但这不包括提到最多的一方:海盗党(Jungherr, Jürgens, and Schoen 2012) 。见Tumasjan et al. (2012)支持排除海盗党的论点。改编自Tumasjan et al. (2010) ,表4和Jungherr, Jürgens, and Schoen (2012) ,表2。

总之,许多大数据来源并不是来自某些定义明确的人群的代表性样本。对于需要将样本推广到绘制人群的问题的问题,这是一个严重的问题。但是对于样本内比较的问题,非代表性数据可能是强大的,只要研究人员清楚他们的样本的特征并支持关于可运输性的理论或经验证据。事实上,我希望大数据源能够使研究人员在许多非代表性群体中进行更多的样本内比较,我的猜测是,来自许多不同群体的估计将比推测概率随机的单一估计更多地推进社会研究。样品。