5.4.3结论

分布式数据收集是可能的,并且在未来它可能涉及技术和被动参与。

正如eBird所展示的那样,分布式数据收集可用于科学研究。此外,PhotoCity显示与采样和数据质量相关的问题可能是可解决的。分布式数据收集如何为社会研究工作?一个例子来自Susan Watkins及其同事在马拉维期刊项目上的工作(Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) 。在这个项目中,22名当地居民 - 称为“记者” - 保持“会话期刊”,详细记录了他们在普通人的日常生活中听到的关于艾滋病的谈话(在项目开始时,大约15%的成年人)在马拉维感染了艾滋病毒(Bello, Chipeta, and Aberle-Grasse 2006) )。由于他们的内部人员身份,这些记者能够听到沃特金斯和她的西方研究合作者可能无法访问的对话(当我提供有关设计自己的大规模协作项目的建议时,我将在本章后面讨论这种道德规范) 。来自马拉维期刊项目的数据已经产生了许多重要发现。例如,在项目开始之前,许多局外人认为撒哈拉以南非洲地区存在关于艾滋病的沉默,但会话期刊表明情况显然并非如此:记者在各种各样的地点听到数百次关于该主题的讨论。葬礼,酒吧和教堂。此外,这些对话的性质有助于研究人员更好地了解对安全套使用的一些抵抗力;在公共卫生信息中使用安全套的方式与日常生活中讨论的方式不一致(Tavory and Swidler 2009)

当然,与来自eBird的数据一样,来自马拉维期刊项目的数据并不完美,Watkins及其同事详细讨论了这个问题。例如,记录的对话不是所有可能对话的随机样本。相反,他们是关于艾滋病的对话的不完整的普查。在数据质量方面,研究人员认为他们的记者是高质量的记者,这可以通过期刊和期刊的一致性来证明。也就是说,因为有足够的记者在足够小的环境中部署并专注于特定主题,所以可以使用冗余来评估和确保数据质量。例如,一位名叫“斯特拉”的性工作者在四位不同的记者(Watkins and Swidler 2009)的期刊上多次出现。为了进一步建立您的直觉,表5.3显示了社会研究的分布式数据收集的其他示例。

表5.3:社会研究中分布式数据收集项目的示例
收集的数据 参考
关于马拉维艾滋病毒/艾滋病的讨论 Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
街头乞讨在伦敦 Purdam (2014)
刚果东部的冲突事件 Windt and Humphreys (2016)
尼日利亚和利比里亚的经济活动 Blumenstock, Keleher, and Reisinger (2016)
流感监测 Noort et al. (2015)

本节中描述的所有例子都涉及积极参与:记者转录他们听到的对话;鸟类上传了他们的观鸟清单;或者玩家上传他们的照片。但是如果参与是自动的并且不需要任何特定的技能或时间提交怎么办?这是“参与感应”或“以人为本的传感”所提供的承诺。例如,麻省理工学院科学家的Pothole Patrol项目在波士顿地区的七个出租车内安装了配备GPS的加速度计(Eriksson et al. 2008) 。因为在坑洞上行驶会留下明显的加速度计信号,这些设备放置在移动的出租车内时,可以创建波士顿的坑洼地图。当然,出租车不会随意抽取道路,但是,如果有足够的出租车,可能会有足够的覆盖范围来提供有关他们城市大部分的信息。依赖技术的被动系统的第二个好处是它们会降低贡献数据的过程:虽然它需要技能来为eBird做出贡献(因为你需要能够可靠地识别鸟类),但它不需要特殊技能为Pothole巡逻队做出贡献。

展望未来,我怀疑许多分布式数据收集项目将开始利用已经由全球数十亿人携带的移动电话的功能。这些手机已经拥有大量对测量非常重要的传感器,如麦克风,相机,GPS设备和时钟。此外,它们支持第三方应用程序,使研究人员能够控制底层数据收集协议。最后,他们拥有互联网连接,使他们可以卸载他们收集的数据。存在许多技术挑战,从不准确的传感器到有限的电池寿命,但随着技术的发展,这些问题可能随着时间的推移而减少。另一方面,与隐私和道德相关的问题可能会变得更加复杂;当我提供关于设计自己的大规模协作的建议时,我将回到道德问题。

在分布式数据收集项目中,志愿者提供有关世界的数据。这种方法已经成功使用,未来的使用可能必须解决采样和数据质量问题。幸运的是,PhotoCity和Pothole Patrol等现有项目提出了解决这些问题的方法。随着越来越多的项目利用能够实现技能和被动参与的技术,分布式数据收集项目的规模应该会大幅增加,使研究人员能够收集过去根本不受限制的数据。