这部分被设计为用作基准,而不是被理解为叙述。
一种观察未包括本章是人种学。为了了解更多关于数字空间人种学看Boellstorff et al. (2012)以及更多的民族志混合数字和物理空间看到Lane (2016) 。
当你重复利用的数据,有两个心理技巧,可以帮助您了解您可能遇到可能出现的问题。首先,你可以试着想象一下理想的数据集你的问题和比较,为您所使用的数据集。他们如何相似,他们如何不同?如果你没有自己收集你的数据,也有可能是你想要什么,你有什么区别。但是,你必须决定是否这些差异是或大或小。
二,请记住,有人创建,收集你的数据由于某种原因。你应该试着去了解他们的推理。这种逆向工程可以帮助您确定您的数据改变用途可能出现的问题和偏见。
有“大数据”没有单一的统一的定义,但许多定义,似乎集中在3比:(例如,数量,种类和速度Japec et al. (2015)而不是着眼于数据的特点,我的定义更侧重于为什么数据已创建。
我国政府行政数据包括大数据的类别里面是有点不寻常。谁作出这种情况下其他人,包括Legewie (2015) , Connelly et al. (2016)和Einav and Levin (2014)欲了解更多有关政府行政数据进行研究的价值,看到Card et al. (2010) , Taskforce (2012) ,和Grusky, Smeeding, and Snipp (2015) 。
对于管理研究从政府统计体系,尤其是美国人口普查局内部的视图,请参阅Jarmin and O'Hara (2016) 。在瑞典统计局书长度治疗行政记录的研究,请参见Wallgren and Wallgren (2007) 。
在这一章,我简要地比较了传统的调查,如综合社会调查(GSS)与社交媒体数据源,如微博。对于传统的调查和社交媒体数据之间的深入细致的比较,请参见Schober et al. (2016) 。
大数据的这10个特征已经通过各种不同的作者以各种不同的方式说明。写作是影响在这些问题上我的思想包括: Lazer et al. (2009) Groves (2011) Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) ,以及Goldstone and Lupyan (2016) 。
在本章中,我使用的术语数字轨迹 ,我认为这是相对中性。数字痕迹另一种流行的词是数字脚印 (Golder and Macy 2014) ,但哈尔·阿伯尔森,肯·莱丁,哈利·刘易斯(2008)指出,一个更合适的术语可能是数字指纹 。当您创建的脚印,大家都知道发生了什么,你的足迹一般不能亲自追踪到你的。同样是不为您的数字痕迹真。事实上,你是不留痕迹所有关于你很少有知识的时间。而且,虽然这些痕迹没有对他们的姓名,他们往往可以链接回你。换句话说,他们更喜欢指纹:隐形和个人识别。
大
欲了解更多关于为什么大型数据集,呈现的统计检验问题,看到Lin, Lucas, and Shmueli (2013)和McFarland and McFarland (2015) 。这些问题应该引起研究者关注的现实意义,而不是统计意义。
永远在线
当考虑永远在线的数据,要考虑你是否完全一样的人比较多时间,还是你比较的一些人改变组是非常重要的;参见例如, Diaz et al. (2016) 。
没反应
经典的一本书上的非反应性的措施是Webb et al. (1966)在书前的最新例子数字化时代,但他们仍然启发。对于人改变,因为质量监控的存在他们的行为的例子,见Penney (2016)和Brayne (2014)
残缺
欲了解更多有关记录链接,请参阅Dunn (1946)和Fellegi and Sunter (1969)历史)和Larsen and Winkler (2014) (现代)。类似接洽也已在计算机科学名下开发的,如重复数据删除,实例标识,名称匹配,重复检测和重复记录检测(Elmagarmid, Ipeirotis, and Verykios 2007)也有隐私保护的方法来记录联动不需要的个人身份信息传输(Schnell 2013) 。 Facebook的还开发了继续他们的记录链接到投票行为;这样做是为了评估一个实验,我会告诉你在第4章(Bond et al. 2012; Jones et al. 2013)
欲了解更多关于建构效,见Shadish, Cook, and Campbell (2001) ,第3章。
不可访问
欲了解更多关于AOL搜索日志溃败,看到Ohm (2010) 。我提供建议与有关公司和第4章政府合作时,我描述的实验。许多作者都表达了对依赖于无法访问数据研究的关注,看到Huberman (2012)和boyd and Crawford (2012)
对于大学的研究人员获得数据访问的一个好方法是在一家公司上班,作为一名实习生或客座研究员。除了启用数据访问,这个过程也将有助于研究人员进一步了解数据是如何被创造,这对于分析非常重要。
非代表
非代表性是谁希望做出一个完整的人口报表研究人员和政府的一大难题。这是较少关心的对于通常集中在他们的用户的公司。欲了解更多关于荷兰统计局如何考虑企业大数据的非代表性的问题,请参阅Buelens et al. (2014) 。
在第三章中,我将介绍更为详细的采样和估计。即使数据是不具有代表性,在一定条件下,它们可以被加权,以产生良好的估计。
漂流
系统漂移很难从外面看。然而,MovieLens项目(多在第4章)已经由学术研究小组运行超过15年。因此,他们记录和分享有关系统已随着时间而演变的方式和方式的信息,这可能影响分析(Harper and Konstan 2015) 。
许多学者都在微博专注于漂移: Liu, Kliman-Silver, and Mislove (2014)和Tufekci (2014) 。
从算法混淆
我第一次听到的谈话使用的乔恩·克莱因伯格术语“算法混淆”。背后操演的主要思想是,一些社会科学理论都是“引擎不要摄像机” (Mackenzie 2008) 。也就是说,他们实际上是塑造世界,而不是仅仅捕捉到它。
脏
政府统计机构称数据清理,统计数据编辑, De Waal, Puts, and Daas (2014)描述了调查数据编制的统计数据编辑技术以及研究它们在多大程度上适用于大数据源和Puts, Daas, and Waal (2015)提出了一些相同的想法,更广泛的受众。
对于Twitter的,专注于研究垃圾邮件的一些例子Clark et al. (2016)和Chu et al. (2012)最后, Subrahmanian et al. (2016)描述了DARPA微博特挑战的结果。
敏感
Ohm (2015)回顾了敏感信息的想法早期的研究,并提供一个多因素的考验。他提出了四个因素是:伤害的可能性;伤害的概率;的保密关系的存在;以及是否反映了风险的担忧多数。
出租车在纽约的法伯的研究是基于先前的研究Camerer et al. (1997)所使用的用于驱动记录行程开始时间纸跳闸片纸的形式,结束时间,以及票价三个不同的便利的样品。这早期的研究发现,司机似乎是目标仔:他们对天凡他们的工资较高的工作更少。
Kossinets and Watts (2009)的重点是同质性的社会网络的起源。见Wimmer and Lewis (2010)对不同的方法来从Facebook的使用数据的相同问题。
在随后的工作中,王和同事们进一步探讨网络审查在中国(King, Pan, and Roberts 2014; King, Pan, and Roberts 2016)对于相关的方法在测量中国网络审查,看Bamman, O'Connor, and Smith (2012)欲了解更多关于统计方法像在使用King, Pan, and Roberts (2013)估计1100万职位的情绪,看到Hopkins and King (2010)欲了解更多关于监督学习,看到James et al. (2013) (技术性较低)和Hastie, Tibshirani, and Friedman (2009) (更多的技术)。
预测是工业数据科学的一个重要组成部分(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) 。预测的一种类型的,通常由社会研究者做是人口统计预测,例如Raftery et al. (2012)
谷歌流感趋势是不使用搜索数据NOWCAST流感流行的第一个项目。事实上,研究人员在美国(Polgreen et al. 2008; Ginsberg et al. 2009)和瑞典(Hulth, Rydevik, and Linde 2009)已经发现,某些搜索字词(如“流感”),预测国家公共卫生监测之前的数据被释放。随后其他许多项目都试图用数字跟踪数据疾病监测检测,看Althouse et al. (2015)进行审查。
除了使用数字跟踪数据来预测健康状况,同时也出现了一个巨大的使用Twitter的数据来预测选举结果的工作量;为评论见Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (第7章)和Huberty (2015) 。
利用搜索数据来预测流感流行和使用Twitter的数据来预测选举是使用某种数字轨迹来预测一些在世界上同类事件的两个例子。那里有这种通用结构研究的巨大数字。表2.5包含一些其它实例。
数字跟踪 | 结果 | 引文 |
---|---|---|
推特 | 在美国电影票房收入 | Asur and Huberman (2010) |
搜索日志 | 在美国的电影,音乐,书籍和视频游戏销售 | Goel et al. (2010) |
推特 | 道琼斯工业平均指数(美国股市) | Bollen, Mao, and Zeng (2011) |
该杂志PS政治学对大数据,因果推论和形式理论专题讨论会, Clark and Golder (2015)总结了每个贡献。 的美利坚合众国国家科学院的论文集杂志对因果推断和大数据的研讨会,并Shiffrin (2016)总结了每个贡献。
在自然实验条件, Dunning (2012)提供了一个很好的书长度治疗。欲了解更多关于使用越南选秀抽签作为一个自然实验,看Berinsky and Chatfield (2015) 。对于那些试图自动发现自然实验的内部大数据源的机器学习方法,请参见Jensen et al. (2008)和Sharma, Hofman, and Watts (2015) 。
在配套方面,一个乐观的评论,看到Stuart (2010)和一个悲观的综述见Sekhon (2009) 。欲了解更多关于作为一种修剪匹配,见Ho et al. (2007)对于书籍提供匹配的优秀护理,见Rosenbaum (2002) Rosenbaum (2009) , Morgan and Winship (2014) ,以及Imbens and Rubin (2015) 。