本章未包括的一种观察是民族志。有关数字空间民族志的更多信息,请参阅Boellstorff et al. (2012) ,关于混合数字和物理空间中的民族志的更多信息,请参阅Lane (2016) 。
没有单一的共识定义“大数据”,但许多定义似乎关注“3 V”:数量,种类和速度(例如, Japec et al. (2015) )。见De Mauro et al. (2015)审查定义。
我将政府行政数据纳入大数据类别有点不寻常,尽管其他人也提到了这一案例,包括Legewie (2015) , Connelly et al. (2016) ,以及Einav and Levin (2014) 。有关政府行政数据研究价值的更多信息,请参阅Card et al. (2010) , Adminstrative Data Taskforce (2012) , Grusky, Smeeding, and Snipp (2015) 。
有关政府统计系统内部行政研究的观点,尤其是美国人口普查局,请参阅Jarmin and O'Hara (2016) 。有关瑞典统计局行政记录研究的书籍处理,请参阅Wallgren and Wallgren (2007) 。
在本章中,我简要地将传统调查(如一般社会调查(GSS))与社交媒体数据源(如Twitter)进行了比较。要对传统调查和社交媒体数据进行彻底和仔细的比较,请参阅Schober et al. (2016) 。
大数据的这10个特征已经由各种不同的作者以各种不同的方式描述。影响我对这些问题的思考的写作包括Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) 。
在本章中,我使用了数字跟踪一词,我认为这是相对中立的。数字化痕迹的另一个流行术语是数字足迹 (Golder and Macy 2014) ,但Hal Abelson,Ken Ledeen和Harry Lewis (2008)指出,一个更合适的术语可能是数字指纹 。当您创建足迹时,您会发现正在发生的事情,而且您的足迹通常无法追溯到您个人身上。您的数字轨迹也是如此。事实上,你一直在留下你几乎没有什么知识的痕迹。而且,虽然这些痕迹上没有您的名字,但它们通常可以链接回您。换句话说,它们更像是指纹:隐形和个人识别。
有关为什么大数据集使统计测试有问题的更多信息,请参阅M. Lin, Lucas, and Shmueli (2013)以及McFarland and McFarland (2015) 。这些问题应该引导研究人员关注实际意义而不是统计意义。
有关Raj Chetty及其同事如何获取税务记录的更多信息,请参阅Mervis (2014) 。
大型数据集还可能产生通常超出单个计算机功能的计算问题。因此,对大型数据集进行计算的研究人员经常将工作分散在许多计算机上,这个过程有时称为并行编程 。有关并行编程的介绍,特别是一种名为Hadoop的语言,请参阅Vo and Silvia (2016) 。
在考虑永远在线的数据时,重要的是要考虑您是否要比较完全相同的人,或者您是否正在比较一些不断变化的人群;例如,参见Diaz et al. (2016) 。
关于非反应性措施的经典着作是Webb et al. (1966) 。该书中的例子早于数字时代,但它们仍然具有启发性。例如,由于存在大规模监视,人们改变了他们的行为,见Penney (2016)和Brayne (2014) 。
反应性与研究人员称需求效应(Orne 1962; Zizzo 2010)和Hawthorne效应(Adair 1984; Levitt and List 2011)密切相关。
有关记录链接的更多信息,请参阅Dunn (1946)和Fellegi and Sunter (1969) (历史)以及Larsen and Winkler (2014) (现代)。在计算机科学中也已经开发了类似的方法,例如重复数据删除,实例识别,名称匹配,重复检测和重复记录检测(Elmagarmid, Ipeirotis, and Verykios 2007) 。还有保护隐私的方法来记录链接,不需要传输个人识别信息(Schnell 2013) 。 Facebook还开发了一个将记录与投票行为联系起来的流程;这是为了评估我将在第4章中告诉你的实验(Bond et al. 2012; Jones et al. 2013) 。
有关构造效度的更多信息,请参阅Shadish, Cook, and Campbell (2001)第3章。
有关AOL搜索日志崩溃的更多信息,请参阅Ohm (2010) 。当我描述实验时,我在第4章提供有关与公司和政府合作的建议。许多作者对依赖无法获取的数据的研究表示担忧,参见Huberman (2012)和boyd and Crawford (2012) 。
对于大学的研究人员获得数据访问的一个好方法是在一家公司上班,作为一名实习生或客座研究员。除了启用数据访问,这个过程也将有助于研究人员进一步了解数据是如何被创造,这对于分析非常重要。
在获取政府数据方面, Mervis (2014)讨论了Raj Chetty及其同事如何获得他们在社会流动研究中使用的税务记录。
有关“代表性”概念的更多信息,请参阅Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ,以及Kruskal and Mosteller (1980) 。
我对Snow的工作以及Doll和Hill的工作的总结很简短。有关斯诺的霍乱工作的更多信息,请参阅Freedman (1991) 。有关英国医生研究的更多信息,请参阅Doll et al. (2004)和Keating (2014) 。
许多研究人员会惊讶地发现,虽然Doll和Hill收集了女医生和35岁以下医生的数据,但他们故意没有在第一次分析中使用这些数据。正如他们所说的那样:“由于肺癌在35岁以下的女性和男性中相对罕见,因此在未来几年内不太可能在这些人群中获得有用的数字。因此,在这份初步报告中,我们将注意力仅限于35岁及以上的男性。“ Rothman, Gallacher, and Hatch (2013)具有挑衅性的标题”为什么应该避免代表性“,对于故意创建非代表性数据。
非代表性是希望对整个人口做出陈述的研究人员和政府的主要问题。对于通常关注用户的公司来说,这不是一个问题。有关荷兰统计局如何考虑商业大数据非代表性问题的更多信息,请参阅Buelens et al. (2014) 。
例如,研究人员对大数据源的非代表性表示担忧,请参阅boyd and Crawford (2012) , K. Lewis (2015b)和Hargittai (2015) 。
有关社会调查和流行病学研究目标的更详细比较,请参阅Keiding and Louis (2016) 。
有关尝试使用Twitter对选民做出非抽样概括的更多信息,尤其是2009年德国大选的情况,请参阅Jungherr (2013)和Jungherr (2015) 。 Tumasjan et al. (2010)的工作之后Tumasjan et al. (2010)世界各地的研究人员使用更好的方法 - 例如使用情绪分析来区分各方的正面和负面提及 - 以提高Twitter数据预测各种不同类型的选举的能力(Gayo-Avello 2013; Jungherr 2015, chap. 7.) 。以下是Huberty (2015)总结这些预测选举的尝试的结果:
“所有已知的基于社交媒体的预测方法在受到真正具有前瞻性的选举预测要求时都失败了。这些失败似乎是由于社交媒体的基本属性,而不是方法论或算法难题。简而言之,社交媒体不会,也可能永远不会,为选民提供稳定,公正,有代表性的图景;社交媒体的便利样本缺乏足够的数据来解决这些问题。“
在第3章中,我将更详细地描述采样和估计。即使数据不具有代表性,在某些条件下,也可对其进行加权以产生良好的估计。
从外面很难看出系统漂移。然而,MovieLens项目(在第4章中更多讨论)已由一个学术研究小组运行超过15年。因此,他们能够记录和分享有关系统随时间演变的方式以及这可能如何影响分析的信息(Harper and Konstan 2015) 。
许多学者关注Twitter的偏差: Liu, Kliman-Silver, and Mislove (2014)以及Tufekci (2014) 。
处理人口漂移的一种方法是建立一个用户小组,让研究人员随着时间的推移研究同一个人,参见Diaz et al. (2016) 。
我第一次听到Jon Kleinberg在谈话中使用的“算法混淆”一词,但不幸的是我不记得讲话的时间和地点。我第一次看到印刷术语是在Anderson et al. (2015) ,这是一个有趣的讨论,约会网站使用的算法如何可能使研究人员使用这些网站的数据来研究社会偏好的能力复杂化。 K. Lewis (2015a)针对Anderson et al. (2014)提出了这一担忧Anderson et al. (2014) 。
除了Facebook之外,Twitter还建议用户根据三合一关闭的想法关注用户;见Su, Sharma, and Goel (2016) 。因此,Twitter中的三元闭合水平是一些人类倾向于三元闭合和一些促进三元闭合的算法倾向的组合。
关于表演性的更多信息 - 特别是一些社会科学理论是“引擎而不是相机”(即,它们塑造世界而不是仅仅描述它)的想法 - 参见Mackenzie (2008) 。
政府统计机构称数据清理统计数据编辑 。 De Waal, Puts, and Daas (2014)描述了为调查数据开发的统计数据编辑技术,并检查了它们适用于大数据源的程度, Puts, Daas, and Waal (2015)提出了一些相同的想法。更普遍的观众。
有关社交机器人的概述,请参阅Ferrara et al. (2016) 。对于一些专注于在Twitter上发现垃圾邮件的研究示例,请参阅Clark et al. (2016)和Chu et al. (2012) 。最后, Subrahmanian et al. (2016)描述了DARPA Twitter Bot Challenge的结果,这是一项旨在比较在Twitter上检测机器人的方法的大规模协作。
Ohm (2015)回顾了早期关于敏感信息概念的研究,并提供了一个多因素测试。他提出的四个因素是伤害的程度,伤害的可能性,保密关系的存在以及风险是否反映了多数主义的关注。
法伯对纽约出租车的研究是基于Camerer et al. (1997)的早期研究Camerer et al. (1997)使用了纸张旅行表的三种不同的便利样本。这项早期研究发现,司机似乎是目标收入者:他们在工资较高的日子里工作较少。
在随后的工作中,金和同事们进一步探讨了中国的在线审查(King, Pan, and Roberts 2014, [@king_how_2016] ) 。有关衡量中国在线审查的相关方法,请参阅Bamman, O'Connor, and Smith (2012) 。有关King, Pan, and Roberts (2013)使用的统计方法的更多信息来估计1100万个帖子的情绪,请参阅Hopkins and King (2010) 。有关监督学习的更多信息,请参阅James et al. (2013) (较少技术)和Hastie, Tibshirani, and Friedman (2009) (更多技术)。
预测是工业数据科学的重要组成部分(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) 。社会研究人员通常进行的一种预测是人口预测;例如,参见Raftery et al. (2012) 。
谷歌流感趋势不是第一个使用搜索数据来预测流感流行的项目。事实上,美国的研究人员(Polgreen et al. 2008; Ginsberg et al. 2009)和瑞典(Hulth, Rydevik, and Linde 2009)已经发现某些搜索术语(例如“流感”)预测了国家公共卫生监督数据发布前的数据。随后,许多其他项目试图使用数字跟踪数据进行疾病监测检测;见Althouse et al. (2015)进行审查。
除了使用数字跟踪数据预测健康结果外,还有大量工作使用Twitter数据来预测选举结果;评论见Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (第7章)和Huberty (2015) 。国内生产总值(GDP)等经济指标的临近Bańbura et al. (2013)在中央银行也很常见,见Bańbura et al. (2013) 。表2.8包括一些使用某种数字轨迹来预测世界某种事件的研究实例。
数字跟踪 | 结果 | 引文 |
---|---|---|
推特 | 美国电影的票房收入 | Asur and Huberman (2010) |
搜索日志 | 在美国销售电影,音乐,书籍和视频游戏 | Goel et al. (2010) |
推特 | 道琼斯工业平均指数(美国股市) | Bollen, Mao, and Zeng (2011) |
社交媒体和搜索日志 | 对美国,英国,加拿大和中国的投资者情绪和股票市场的调查 | Mao et al. (2015) |
搜索日志 | 新加坡和曼谷的登革热患病率 | Althouse, Ng, and Cummings (2011) |
最后,Jon Kleinberg及其同事(2015)指出,预测问题分为两个,略有不同的类别,社会科学家倾向于关注一个而忽略另一个。想象一个政策制定者,我会称她为安娜,她正面临干旱,必须决定是否聘请萨满来做雨舞以增加下雨的机会。另一个政策制定者,我打电话给她贝蒂,必须决定是否带伞去避免在回家的路上弄湿。如果他们了解天气,安娜和贝蒂都可以做出更好的决定,但他们需要知道不同的事情。安娜需要了解雨舞是否会导致下雨。另一方面,贝蒂不需要了解因果关系;她只需要准确的预测。社会研究人员经常关注像安娜所面临的问题 - 克莱因伯格及其同事称之为“类似雨舞”的政策问题 - 因为它们涉及因果关系问题。贝蒂所面临的问题 - 克莱因伯格及其同事称之为“类似伞状”的政策问题 - 也非常重要,但受到社会研究人员的关注较少。
PS政治科学杂志举办了关于大数据,因果推理和形式理论的研讨会, Clark and Golder (2015)总结了每一个贡献。 “ 美利坚合众国国家科学院院刊 ”发表了关于因果推理和大数据的研讨会, Shiffrin (2016)总结了每一项贡献。对于试图在大数据源内自动发现自然实验的机器学习方法,请参阅Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) 。
在自然实验方面, Dunning (2012)提供了一个介绍性的,书本长度的治疗,有很多例子。对于对自然实验持怀疑态度的观点,参见Rosenzweig and Wolpin (2000) (经济学)或Sekhon and Titiunik (2012) (政治学)。 Deaton (2010)和Heckman and Urzúa (2010)认为,关注自然实验可以使研究人员专注于估计不重要的因果效应; Imbens (2010)以对自然实验价值的更乐观的观点来反驳这些论点。
在描述研究人员如何从估计起草效果到服务效果时,我正在描述一种称为工具变量的技术。 Imbens and Rubin (2015)在他们的第23章和第24章中提供了一个介绍,并以草案抽签为例。兵役对编纂者的影响有时被称为编制者平均因果效应(CAcE),有时也称为局部平均治疗效果(LATE)。 Sovey and Green (2011) , Angrist and Krueger (2001)以及Bollen (2012)提供了政治科学,经济学和社会学中工具变量使用的评论, Sovey and Green (2011)提供了“读者清单”。使用工具变量评估研究。
事实证明,1970年的选秀抽签实际上并不是随机的;纯随机性存在小的偏差(Fienberg 1971) 。 Berinsky and Chatfield (2015)认为,这种小偏差并不具有实质意义,并且讨论了正确进行随机化的重要性。
在匹配方面,请参阅Stuart (2010)的乐观评论, Sekhon (2009)进行悲观评论。有关匹配作为一种修剪的更多信息,请参阅Ho et al. (2007) 。为每个人找到一个完美的匹配通常很困难,这带来了许多复杂性。首先,当没有精确匹配时,研究人员需要决定如何测量两个单位之间的距离以及给定距离是否足够接近。如果研究人员希望对治疗组中的每个病例使用多个匹配,则会出现第二个复杂性,因为这可以导致更精确的估计。这两个问题以及其他问题在Imbens and Rubin (2015)第18章中有详细描述。另见( ??? )第二部分。
参见Dehejia and Wahba (1999)的例子,其中匹配方法能够产生类似于随机对照实验的估计。但是,参见Arceneaux, Gerber, and Green (2006)以及Arceneaux, Gerber, and Green (2010)的例子,其中匹配方法无法重现实验基准。
Rosenbaum (2015)和Hernán and Robins (2016)提供了其他建议,用于发现大数据源中的有用比较。