5.4.3結論

分佈式數據收集是可能的,並在未來將可能涉及的技術和被動參與。

作為eBird演示,分佈式數據收集可以用於科學研究。此外,PhotoCity表明有關採樣和數據質量問題是潛在的可解的。

怎麼可能分佈式數據採集工作,為社會研究?一個很好的例子來自蘇珊·沃特金斯和她在馬拉維刊工程同事的工作(Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015)在這個項目中,22個當地居民稱為“記者”-kept所記錄,詳細“會話日誌”,他們在普通人的日常生活中聽到關於艾滋病的對話(當時的項目開始,大人約15%馬拉維感染艾滋病毒(Bello, Chipeta, and Aberle-Grasse 2006)由於他們的內線地位的,這些記者們能夠偷聽可能已經無法進入蘇珊·沃特金斯和她的西方研究合作者對話(我將討論在本章後面的這種倫理,當我提供有關設計自己的大規模協作項目建議)。從馬拉維期刊項目的數據已經導致了一些重要發現。例如,在項目開始前,很多外地人認為有關於艾滋病在撒哈拉以南非洲的沉默,但雜誌證實,這顯然並非如此:記者無意中聽到數以百計的談話的話題,在地點等不同的葬禮,酒吧和教堂。此外,這些對話的性質有助於研究人員更好地了解一些安全套使用的阻力;使用避孕套在公共衛生信息框的方式是不一致的方式,它是在日常生活中討論(Tavory and Swidler 2009)

當然,像從eBird的數據,從馬拉維期刊項目中的數據是不完美的,由沃特金斯和同事詳細討論的一個問題。例如,錄製的談話是不是所有可能的談話進行隨機抽樣。相反,它們是關於艾滋病的對話不完整的普查。在數據質量方面,研究人員認為,他們的記者們高品質的記者,由一致性期刊內和跨期刊證明。此外,當記者足以部署在一個足夠小的設置和報告都集中在一個特定的主題,冗餘成為可能,從而提高數據質量的信心。例如,一個名為“斯特拉”性工作者在四個不同的記者刊物上出現了幾次(Watkins and Swidler 2009)因為它是在PhotoCity,使用冗餘的是評估並確保在分佈式數據採集項目數據質量的一個重要原則。為了進一步打造自己的直覺,表5.3所示為社會研究分佈式數據採集的其他例子。

表5.3:在社會研究分佈式數據採集項目的例子。
收集的數據 引文
關於艾滋病毒/艾滋病在馬拉維的討論 Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
流浪乞討倫敦 Purdam (2014)
在剛果東部的衝突事件 Windt and Humphreys (2016)
在尼日利亞和利比里亞的經濟活動 Blumenstock, Keleher, and Reisinger (2016)
流感監測 Noort et al. (2015)

所有在本節介紹的例子已經參與的積極參與:記者轉錄,他們聽到的對話;觀鳥上傳自己的觀鳥清單;或者玩家上傳自己的照片。但是,如果參與是自動的,不需要任何特殊技能或時間來提交?這是“參與感”,或提供的承諾“以人為本感應。”例如,坑洼巡邏,由麻省理工學院的科學家的一個項目,安裝GPS裡面在波士頓地區設有7個出租車裝有加速計(Eriksson et al. 2008) 。因為開車駛過坑洞留下了明顯的加速度信號,這些設備,放置移動出租車內時,可以創建波士頓的坑洞地圖。當然,出租車不隨機抽樣的道路,但只要有足夠的出租車,可能有足夠的覆蓋面,以提供有關他們的城市的較大部分的信息。依靠技術的被動系統的第二個好處是,他們去技能有助於數據的過程:當它需要技巧有助於eBird(因為你需要能夠可靠地識別鳥類),它不需要特殊技能有助於坑洼巡邏。

展望未來,我懷疑許多分佈式數據收集項目將開始利用那些已經由數十億世界各地的人們攜帶的手機功能。這些手機已經有大量的傳感器,用於測量很重要,如麥克風,照相機,GPS設備和時鐘。此外,這些手機支持第三方應用程序使研究人員在底層數據採集協議,一些控制。最後,這些手機具有互聯網連接,使得他們有可能來卸載它們收集的數據。有不準確的傳感器電池壽命有限諸多技術挑戰,但隨著技術的發展,這些問題可能會隨著時間逐漸褪去。涉及到隱私和道德問題,而另一方面,可能會隨著技術的發展變得更加複雜;當我提供有關設計自己的大規模協作的意見,我會回到道德的問題。

在分佈式數據採集項目,志願者貢獻約佔世界的數據。這一方法已被成功地使用,並且未來的用途將可能有來解決採樣和數據質量的擔憂。幸運的是,如PhotoCity和坑洼巡邏現有項目建議對這些問題的解決方案。隨著越來越多的項目,充分利用技術,使德技能和被動參與,分佈式數據採集項目規模應大幅增加,使研究人員能夠收集只是關在過去限制的數據。