分佈式數據收集是可能的,並且在未來它可能涉及技術和被動參與。
正如eBird所展示的那樣,分佈式數據收集可用於科學研究。此外,PhotoCity顯示與採樣和數據質量相關的問題可能是可解決的。分佈式數據收集如何為社會研究工作?一個例子來自Susan Watkins及其同事在馬拉維期刊項目上的工作(Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) 。在這個項目中,22名當地居民 - 稱為“記者” - 保持“會話期刊”,詳細記錄了他們在普通人的日常生活中聽到的關於艾滋病的談話(在項目開始時,大約15%的成年人)在馬拉維感染了艾滋病毒(Bello, Chipeta, and Aberle-Grasse 2006) )。由於他們的內部人員身份,這些記者能夠聽到沃特金斯和她的西方研究合作者可能無法訪問的對話(當我提供有關設計自己的大規模協作項目的建議時,我將在本章後面討論這種道德規範) 。來自馬拉維期刊項目的數據已經產生了許多重要發現。例如,在項目開始之前,許多局外人認為撒哈拉以南非洲地區存在關於艾滋病的沉默,但會話期刊表明情況顯然並非如此:記者在各種各樣的地點聽到數百次關於該主題的討論。葬禮,酒吧和教堂。此外,這些對話的性質有助於研究人員更好地了解對安全套使用的一些抵抗力;在公共衛生信息中使用安全套的方式與日常生活中討論的方式不一致(Tavory and Swidler 2009) 。
當然,與來自eBird的數據一樣,來自馬拉維期刊項目的數據並不完美,Watkins及其同事詳細討論了這個問題。例如,記錄的對話不是所有可能對話的隨機樣本。相反,他們是關於艾滋病的對話的不完整的普查。在數據質量方面,研究人員認為他們的記者是高質量的記者,這可以通過期刊和期刊的一致性來證明。也就是說,因為有足夠的記者在足夠小的環境中部署並專注於特定主題,所以可以使用冗餘來評估和確保數據質量。例如,一位名叫“斯特拉”的性工作者在四位不同的記者(Watkins and Swidler 2009)的期刊上多次出現。為了進一步建立您的直覺,表5.3顯示了社會研究的分佈式數據收集的其他示例。
收集的數據 | 參考 |
---|---|
關於馬拉維艾滋病毒/艾滋病的討論 | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
街頭乞討在倫敦 | Purdam (2014) |
剛果東部的衝突事件 | Windt and Humphreys (2016) |
尼日利亞和利比里亞的經濟活動 | Blumenstock, Keleher, and Reisinger (2016) |
流感監測 | Noort et al. (2015) |
本節中描述的所有例子都涉及積極參與:記者轉錄他們聽到的對話;鳥類上傳了他們的觀鳥清單;或者玩家上傳他們的照片。但是如果參與是自動的並且不需要任何特定的技能或時間提交怎麼辦?這是“參與感應”或“以人為本的傳感”所提供的承諾。例如,麻省理工學院科學家的Pothole Patrol項目在波士頓地區的七個出租車內安裝了配備GPS的加速度計(Eriksson et al. 2008) 。因為在坑洞上行駛會留下明顯的加速度計信號,這些設備放置在移動的出租車內時,可以創建波士頓的坑洼地圖。當然,出租車不會隨意抽取道路,但是,如果有足夠的出租車,可能會有足夠的覆蓋範圍來提供有關他們城市大部分的信息。依賴技術的被動系統的第二個好處是它們會降低貢獻數據的過程:雖然它需要技能來為eBird做出貢獻(因為你需要能夠可靠地識別鳥類),但它不需要特殊技能為Pothole巡邏隊做出貢獻。
展望未來,我懷疑許多分佈式數據收集項目將開始利用已經由全球數十億人攜帶的移動電話的功能。這些手機已經擁有大量對測量非常重要的傳感器,如麥克風,相機,GPS設備和時鐘。此外,它們支持第三方應用程序,使研究人員能夠控制底層數據收集協議。最後,他們擁有互聯網連接,使他們可以卸載他們收集的數據。存在許多技術挑戰,從不准確的傳感器到有限的電池壽命,但隨著技術的發展,這些問題可能隨著時間的推移而減少。另一方面,與隱私和道德相關的問題可能會變得更加複雜;當我提供關於設計自己的大規模協作的建議時,我將回到道德問題。
在分佈式數據收集項目中,志願者提供有關世界的數據。這種方法已經成功使用,未來的使用可能必須解決採樣和數據質量問題。幸運的是,PhotoCity和Pothole Patrol等現有項目提出了解決這些問題的方法。隨著越來越多的項目利用能夠實現技能和被動參與的技術,分佈式數據收集項目的規模應該會大幅增加,使研究人員能夠收集過去根本不受限制的數據。