Distribueret dataindsamling er mulig, og i fremtiden vil det sandsynligvis involvere teknologi og passiv deltagelse.
Som eBird demonstrerer, kan distribueret dataindsamling bruges til videnskabelig forskning. Endvidere viser PhotoCity at problemer relateret til prøveudtagning og datakvalitet er potentielt løsbare. Hvordan kan distribueret dataindsamling arbejde for social forskning? Et eksempel kommer fra Susan Watkins 'arbejde og hendes kolleger på Malawi Journal Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . I dette projekt udgjorde 22 lokale beboere kaldet "journalister" -kept "conversational journals", der i detaljer indspillede de samtaler, de overhørte om aids i det daglige liv for almindelige mennesker (på det tidspunkt, hvor projektet startede, omkring 15% af de voksne i Malawi blev inficeret med hiv (Bello, Chipeta, and Aberle-Grasse 2006) ). På grund af deres insiderstatus kunne disse journalister overhøre samtaler, der kunne have været utilgængelige for Watkins og hendes vestlige forskningssamarbejdspartnere (jeg vil diskutere ethikken herom senere i kapitlet, når jeg giver råd om design af dit eget massesamarbejdsprojekt) . Dataene fra Malawi Journals Project har ført til en række vigtige fund. For eksempel troede mange udenforstående, at der var tavshed om aids i Afrika syd for Sahara, men konversationstidsskriftene viste, at det ikke var tilfældet: journalister overhørte hundredvis af diskussioner om emnet på steder, der var så forskellige som begravelser, barer og kirker. Desuden hjalp disse samtalers karakter til, at forskere bedre forstod noget af modstanden mod kondombrug; Den måde, som kondombrug blev indrammet i folkesundhedsbeskeder, var uforenelig med den måde, den blev diskuteret i hverdagen (Tavory and Swidler 2009) .
Selvfølgelig, ligesom data fra eBird, er dataene fra Malawi Journalprojektet ikke perfekte, et problem, der er diskuteret i detaljer af Watkins og kolleger. De indspillede samtaler er for eksempel ikke en tilfældig prøve af alle mulige samtaler. I stedet er de en ufuldstændig folketælling af samtaler om aids. Hvad angår datakvaliteten, troede forskerne, at deres journalister var højkvalitets journalister, hvilket fremgår af sammenhængen i tidsskrifter og på tværs af tidsskrifter. Det vil sige, fordi der var nok journalister i en lille nok indstilling og fokuseret på et bestemt emne, var det muligt at bruge redundans til at vurdere og sikre datakvaliteten. For eksempel viste en kønarbejder ved navn "Stella" flere gange i tidsskriftet for fire forskellige journalister (Watkins and Swidler 2009) . For at videreudvikle din intuition viser tabel 5.3 andre eksempler på distribueret dataindsamling til social forskning.
Data indsamlet | Reference |
---|---|
Diskussioner om HIV / AIDS i Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Gade tigger i London | Purdam (2014) |
Konflikt begivenheder i det østlige Congo | Windt and Humphreys (2016) |
Økonomisk aktivitet i Nigeria og Liberia | Blumenstock, Keleher, and Reisinger (2016) |
Influenza overvågning | Noort et al. (2015) |
Alle eksemplerne beskrevet i dette afsnit har involveret aktiv deltagelse: journalister transkriberede samtaler, som de hørte; birders uploadet deres fugleliste tjeklister; eller spillerne uploadede deres fotos. Men hvad nu hvis deltagelsen var automatisk og ikke krævede nogen særlig færdighed eller tid til at indsende? Dette er det løfte, der tilbydes af "participatory sensing" eller "people-centric sensing." Pothole Patrol, et projekt fra forskere ved MIT, monterede for eksempel GPS-udstyrede accelerometre inden for syv taxahytter i Boston-området (Eriksson et al. 2008) . Fordi kørsel over en pothole efterlader et tydeligt accelerometer signal, kan disse enheder, når de placeres inde i flytte taxier, skabe pothole kort over Boston. Selvfølgelig prøver taxier ikke tilfældigt veje, men i betragtning af tilstrækkelige taxier kan der være tilstrækkelig dækning for at give oplysninger om store dele af byen. En anden fordel ved passive systemer, der er afhængige af teknologi, er, at de danner processen med at bidrage med data: mens det kræver færdigheder til at bidrage til eBird (fordi du skal kunne identificere fuglearter pålideligt), kræver det ingen særlige færdigheder til at bidrage til Pothole Patrol.
I fremtiden formoder jeg, at mange distribuerede dataindsamlingsprojekter vil begynde at gøre brug af evner hos de mobiltelefoner, der allerede er båret af milliarder mennesker verden over. Disse telefoner har allerede et stort antal sensorer vigtige til måling, såsom mikrofoner, kameraer, GPS-enheder og ure. Derudover understøtter de tredjepartsapps, der gør det muligt for forskere at få kontrol over de underliggende dataindsamlingsprotokoller. Endelig har de internetforbindelse, hvilket gør det muligt for dem at download de data, de indsamler. Der er mange tekniske udfordringer, der spænder fra unøjagtige sensorer til begrænset batterilevetid, men disse problemer vil sandsynligvis falde over tid, efterhånden som teknologien udvikler sig. Spørgsmål vedrørende privatliv og etik kan derimod blive mere komplicerede; Jeg vender tilbage til etiske spørgsmål, når jeg tilbyder råd om at designe dit eget massesamarbejde.
I distribuerede dataindsamlingsprojekter bidrager frivillige data om verden. Denne tilgang er allerede blevet anvendt succesfuldt, og fremtidige anvendelser vil sandsynligvis skulle tage fat på prøveudtagning og datakvalitetsproblemer. Heldigvis foreslår eksisterende projekter som PhotoCity og Pothole Patrol løsninger på disse problemer. Da flere projekter udnytter teknologi, der muliggør en dygtig og passiv deltagelse, skal distribuerede dataindsamlingsprojekter dramatisk stige i skala, så forskere kan indsamle data, der blot var uden begrænsninger i fortiden.