5.4.3结论

分布式数据收集是可能的,并在未来将可能涉及的技术和被动参与。

作为eBird演示,分布式数据收集可以用于科学研究。此外,PhotoCity表明有关采样和数据质量问题是潜在的可解的。

怎么可能分布式数据采集工作,为社会研究?一个很好的例子来自苏珊·沃特金斯和她在马拉维刊工程同事的工作(Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) 。在这个项目中,22个当地居民称为“记者”-kept所记录,详细“会话日志”,他们在普通人的日常生活中听到关于艾滋病的对话(当时的项目开始,大人约15%马拉维感染艾滋病毒(Bello, Chipeta, and Aberle-Grasse 2006)由于他们的内线地位的,这些记者们能够偷听可能已经无法进入苏珊·沃特金斯和她的西方研究合作者对话(我将讨论在本章后面的这种伦理,当我提供有关设计自己的大规模协作项目建议)。从马拉维期刊项目的数据已经导致了一些重要发现。例如,在项目开始前,很多外地人认为有关于艾滋病在撒哈拉以南非洲的沉默,但杂志证实,这显然并非如此:记者无意中听到数以百计的谈话的话题,在地点等不同的葬礼,酒吧和教堂。此外,这些对话的性质有助于研究人员更好地了解一些安全套使用的阻力;使用避孕套在公共卫生信息框的方式是不一致的方式,它是在日常生活中讨论(Tavory and Swidler 2009)

当然,像从eBird的数据,从马拉维期刊项目中的数据是不完美的,由沃特金斯和同事详细讨论的一个问题。例如,录制的谈话是不是所有可能的谈话进行随机抽样。相反,它们是关于艾滋病的对话不完整的普查。在数据质量方面,研究人员认为,他们的记者们高品质的记者,由一致性期刊内和跨期刊证明。此外,当记者足以部署在一个足够小的设置和报告都集中在一个特定的主题,冗余成为可能,从而提高数据质量的信心。例如,一个名为“斯特拉”性工作者在四个不同的记者刊物上出现了几次(Watkins and Swidler 2009)因为它是在PhotoCity,使用冗余的是评估并确保在分布式数据采集项目数据质量的一个重要原则。为了进一步打造自己的直觉,表5.3所示为社会研究分布式数据采集的其他例子。

表5.3:在社会研究分布式数据采集项目的例子。
收集的数据 引文
关于艾滋病毒/艾滋病在马拉维的讨论 Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
流浪乞讨伦敦 Purdam (2014)
在刚果东部的冲突事件 Windt and Humphreys (2016)
在尼日利亚和利比里亚的经济活动 Blumenstock, Keleher, and Reisinger (2016)
流感监测 Noort et al. (2015)

所有在本节介绍的例子已经参与的积极参与:记者转录,他们听到的对话;观鸟上传自己的观鸟清单;或者玩家上传自己的照片。但是,如果参与是自动的,不需要任何特殊技能或时间来提交?这是“参与感”,或提供的承诺“以人为本感应。”例如,坑洼巡逻,由麻省理工学院的科学家的一个项目,安装GPS里面在波士顿地区设有7个出租车装有加速计(Eriksson et al. 2008) 。因为开车驶过坑洞留下了明显的加速度信号,这些设备,放置移动出租车内时,可以创建波士顿的坑洞地图。当然,出租车不随机抽样的道路,但只要有足够的出租车,可能有足够的覆盖面,以提供有关他们的城市的较大部分的信息。依靠技术的被动系统的第二个好处是,他们去技能有助于数据的过程:当它需要技巧有助于eBird(因为你需要能够可靠地识别鸟类),它不需要特殊技能有助于坑洼巡逻。

展望未来,我怀疑许多分布式数据收集项目将开始利用那些已经由数十亿世界各地的人们携带的手机功能。这些手机已经有大量的传感器,用于测量很重要,如麦克风,照相机,GPS设备和时钟。此外,这些手机支持第三方应用程序使研究人员在底层数据采集协议,一些控制。最后,这些手机具有互联网连接,使得他们有可能来卸载它们收集的数据。有不准确的传感器电池寿命有限诸多技术挑战,但随着技术的发展,这些问题可能​​会随着时间逐渐褪去。涉及到隐私和道德问题,而另一方面,可能会随着技术的发展变得更加复杂;当我提供有关设计自己的大规模协作的意见,我会回到道德的问题。

在分布式数据采集项目,志愿者贡献约占世界的数据。这一方法已被成功地使用,并且未来的用途将可能有来解决采样和数据质量的担忧。幸运的是,如PhotoCity和坑洼巡逻现有项目建议对这些问题的解决方案。随着越来越多的项目,充分利用技术,使德技能和被动参与,分布式数据采集项目规模应大幅增加,使研究人员能够收集只是关在过去限制的数据。