Distribuert datainnsamling er mulig, og i fremtiden vil trolig innebære teknologi og passiv deltakelse.
Som eBird demonstrerer, kan distribueres datainnsamling brukes til vitenskapelig forskning. Videre viser PhotoCity at problemer knyttet til prøvetaking og datakvalitet er potensielt løsbar.
Hvordan kan distribueres datainnsamling arbeid for samfunnsforskning? Et fantastisk eksempel kommer fra et verk av Susan Watkins og hennes kolleger på Malawi Journals Prosjekt (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . I dette prosjektet, 22 lokale innbyggere såkalte "journalister" -kept "conversational tidsskrift" som er spilt inn, i detalj, de samtalene de overhørte om AIDS i hverdagen til vanlige folk (på tidspunktet prosjektet startet, ca 15% av voksne i Malawi ble smittet med HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). På grunn av sin insider status, disse journalistene var i stand til å overhøre samtaler som kan ha vært utilgjengelige for Susan Watkins og hennes vestlige forsknings samarbeidspartnere (jeg vil diskutere etikk dette senere i kapitlet når jeg gi råd om å designe din egen masse samarbeidsprosjekt ). Dataene fra Malawi Journals prosjektet har ført til en rekke viktige funn. For eksempel, før prosjektet startet, mange utenforstående mente at det ble stille om AIDS i Afrika sør for Sahara, men journalene viste at dette var helt klart ikke tilfelle: journalister hørt hundrevis av samtale om temaet, på steder så forskjellige som begravelser , barer og kirker. Videre kan arten av disse samtalene hjalp forskere bedre å forstå noen av motstanden til kondombruk; den måten at kondombruk ble innrammet i folkehelse meldinger var i strid med den måten at det ble diskutert i hverdagen (Tavory and Swidler 2009) .
Selvfølgelig, som data fra eBird, data fra Malawi Journals prosjektet er ikke perfekt, et problem diskutert i detalj av Watkins og kolleger. For eksempel, de registrerte samtaler er ikke et tilfeldig utvalg av alle mulige samtaler. Snarere er de en ufullstendig folketellingen i samtaler om AIDS. Når det gjelder datakvalitet, mener forskerne at deres journalister var høy kvalitet reportere, som gjenspeiles av konsistens i tidsskrifter og på tvers av tidsskrifter. Videre, når nok journalister er utplassert i en liten nok innstilling og rapportene er fokusert på et bestemt emne, ble redundans mulig, noe som øker tilliten til datakvalitet. For eksempel, en sex worker heter "Stella" dukket opp flere ganger i journalene til fire forskjellige journalister (Watkins and Swidler 2009) . Som det var i PhotoCity, bruk av redundans er et viktig prinsipp for å vurdere og sikre datakvaliteten i distribuerte datainnsamlingsprosjekter. For ytterligere å bygge din intuisjon, Tabell 5.3 viser andre eksempler på distribuert datainnsamling for samfunnsforskning.
data som samles inn | Sitering |
---|---|
Diskusjon om HIV / AIDS i Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Street tigge i London | Purdam (2014) |
Konflikt hendelser i Øst-Kongo | Windt and Humphreys (2016) |
Den økonomiske aktiviteten i Nigeria og Liberia | Blumenstock, Keleher, and Reisinger (2016) |
influensa overvåking | Noort et al. (2015) |
Alle eksemplene som er beskrevet i dette avsnittet er involvert aktiv deltakelse: journalister transkriberes samtaler at de hørte; birders lastet opp sine ornitologi sjekklister; eller spillere lastet opp sine bilder. Men hva om deltakelse var automatisk og ikke krever noen spesiell ferdighet eller tid til å sende? Dette er løftet som tilbys av "deltakende sensing" eller "folk-sentriske sensing." For eksempel, pothole Patrol, et prosjekt av forskere ved MIT, montert GPS utstyrt akselerometre inne syv drosjene i Boston-området (Eriksson et al. 2008) . Fordi kjører over en jettegryte later en tydelig akselerometer signal, disse enhetene, når den plasseres på innsiden av bevegelige drosjer kan lage søle kart over Boston. Of course, drosjer ikke tilfeldig prøve veier, men gitt nok drosjer, kan det være tilstrekkelig dekning for å gi informasjon om store deler av de byen. En annen fordel med passive systemer som er avhengige av teknologi er at de de-ferdighet prosessen med å bidra data: mens det krever dyktighet å bidra til eBird (fordi du må være i stand til å pålitelig identifisere fuglearter), det krever ingen spesielle ferdigheter til bidra til Pothole Patrol.
Fremover, mistenker jeg at mange distribuerte datainnsamlingsprosjekter vil begynne å ta i bruk mulighetene i mobiltelefoner som allerede er gjennomført av milliarder av mennesker over hele verden. Disse telefonene har allerede et stort antall sensorer viktige for måling, som mikrofoner, kameraer, GPS-enheter, og klokker. Videre disse mobiltelefoner støtter tredjeparts applikasjoner som muliggjør forskere viss kontroll over de underliggende datainnsamling protokoller. Til slutt, disse telefonene har Internett-tilkobling, noe som gjør det mulig for dem å off-load dataene de samler inn. Det er mange tekniske utfordringer fra unøyaktige sensorer til begrenset batterilevetid, men disse problemene vil trolig avta over tid etter hvert som teknologien utvikler seg. Problemstillinger knyttet til personvern og etikk, på den annen side kan få mer komplisert som teknologien utvikler seg; Jeg vil tilbake til spørsmål om etikk når jeg gi råd om å designe din egen masse samarbeid.
I distribuerte datainnsamling prosjekter, frivillige bidrar data om verden. Denne tilnærmingen har allerede blitt brukt med hell, og fremtidig bruk vil trolig måtte ta prøvetaking og datakvalitet bekymringer. Heldigvis eksisterende prosjekter som PhotoCity og Pothole Patrol foreslå løsninger på disse problemene. Etter hvert som flere prosjekter dra nytte av teknologi som gjør at de dyktige og passiv deltakelse, fordelt datainnsamlingsprosjekter bør dramatisk øke i omfang, slik at forskerne å samle inn data som var rett og slett utenfor grensene i det siste.