Distribuert datainnsamling er mulig, og i fremtiden vil det trolig involvere teknologi og passiv deltakelse.
Som eBird demonstrerer, kan distribuert datainnsamling brukes til vitenskapelig forskning. Videre viser PhotoCity at problemer knyttet til prøvetaking og datakvalitet er potensielt løsbare. Hvordan kan distribuert datainnsamling jobbe for sosial forskning? Et eksempel kommer fra Susan Watkins arbeid og hennes kolleger på Malawi Journal Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . I dette prosjektet hadde 22 lokalbefolkninger, kalt "journalister" -kept "conversational journals" som registrerte i detalj de samtalene de overheard om AIDS i dagliglivet til vanlige mennesker (på det tidspunktet prosjektet startet, om lag 15% av voksne i Malawi ble infisert med HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). På grunn av sin insiderstatus kunne disse journalistene overhøre samtaler som kunne ha vært utilgjengelige for Watkins og hennes vestlige forskningssamarbeidere (jeg skal diskutere etikken i dette senere i kapitlet når jeg gir råd om å designe ditt eget massesamarbeidsprosjekt) . Dataene fra Malawi Journals Project har ført til en rekke viktige funn. For eksempel, før prosjektet startet, trodde mange utenforstående at det var stillhet om aids i Afrika sør for Sahara, men samtaletidene viste at dette helt klart ikke var tilfelle: journalister overhørte hundrevis av diskusjoner av emnet på steder som er så forskjellige som begravelser, barer og kirker. Videre hjalp arten av disse samtalene forskerne bedre med å forstå noe av motstanden mot kondombruk; måten kondombruk var innrammet i helsemessige meldinger var uforenlig med måten det ble diskutert i hverdagen (Tavory and Swidler 2009) .
Selvfølgelig, som data fra eBird, er dataene fra Malawi Journals Project ikke perfekte, et problem som er omtalt i detalj av Watkins og kollegaer. For eksempel er de innspilte samtalene ikke en tilfeldig prøve av alle mulige samtaler. Snarere er de en ufullstendig folketelling av samtaler om aids. Når det gjelder datakvalitet, trodde forskerne at journalistene var kvalitetsreporterte journalister, som det fremgår av konsistensen i tidsskrifter og på tvers av tidsskrifter. Det er fordi nok journalister ble distribuert i en liten nok innstilling og fokusert på et bestemt emne, det var mulig å bruke redundans for å vurdere og sikre datakvalitet. For eksempel viste en sexarbeider ved navn "Stella" flere ganger i tidsskriftene av fire forskjellige journalister (Watkins and Swidler 2009) . For å videreutvikle din intuisjon, viser tabell 5.3 andre eksempler på distribuert datainsamling for sosial forskning.
Data samlet | Henvisning |
---|---|
Diskusjoner om HIV / AIDS i Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Street tigger i London | Purdam (2014) |
Konflikt hendelser i Øst-Kongo | Windt and Humphreys (2016) |
Økonomisk aktivitet i Nigeria og Liberia | Blumenstock, Keleher, and Reisinger (2016) |
Influensaovervåkning | Noort et al. (2015) |
Alle eksemplene som er beskrevet i denne seksjonen har involvert aktiv deltakelse: journalister transkriberte samtaler som de hørte; birders lastet opp sine fuglekjekker eller spillerne lastet opp bildene sine. Men hva om deltakelsen var automatisk og ikke krever noen bestemt ferdighet eller tid til å sende inn? Dette er løftet som tilbys av "participatory sensing" eller "people-centric sensing." For eksempel monterte Pothole Patrol, et prosjekt av forskere ved MIT, GPS-utstyrte akselerometre i syv taxihytter i Boston-området (Eriksson et al. 2008) . Fordi kjøring over en pothole etterlater et tydelig akselerometer signal, kan disse enhetene, når de er plassert inne i bevegelige drosjer, skape pothole kart over Boston. Selvfølgelig vil drosjer ikke tilfeldig prøve veier, men gitt nok drosjer, det kan være tilstrekkelig dekning for å gi informasjon om store deler av byen. En annen fordel ved passive systemer som er avhengige av teknologi, er at de deaktiverer prosessen med å bidra med data: mens det krever ferdighet til å bidra til eBird (fordi du må kunne identifisere fuglearter på en pålitelig måte), krever det ingen spesielle ferdigheter til å bidra til Pothole Patrol.
Fortsatt, jeg mistenker at mange distribuerte datainnsamlingsprosjekter vil begynne å utnytte evnen til mobiltelefonene som allerede er båret av milliarder mennesker rundt om i verden. Disse telefonene har allerede et stort antall sensorer som er viktige for måling, som mikrofoner, kameraer, GPS-enheter og klokker. Videre støtter de tredjepartsprogrammer som gjør det mulig for forskere å få kontroll over de underliggende datainnsamlingsprotokollene. Til slutt har de Internett-tilkobling, noe som gjør det mulig for dem å laste ut dataene de samler inn. Det er mange tekniske utfordringer, alt fra unøyaktige sensorer til begrenset batterilevetid, men disse problemene vil sannsynligvis redusere over tid etter hvert som teknologi utvikler seg. Spørsmål knyttet til personvern og etikk, derimot, kan bli mer kompliserte. Jeg kommer tilbake til etiske spørsmål når jeg gir råd om å designe ditt eget massesamarbeid.
I distribuerte datainnsamlingsprosjekter bidrar frivillige data om verden. Denne tilnærmingen har allerede blitt brukt vellykket, og fremtidige bruksområder vil sannsynligvis måtte ta opp prøvetaking og datakvalitetsproblemer. Heldigvis foreslår eksisterende prosjekter som PhotoCity og Pothole Patrol løsninger på disse problemene. Ettersom flere prosjekter utnytter teknologi som gjør det mulig for dyktig og passiv deltakelse, bør distribuerte datainnsamlingsprosjekter dramatisk øke omfanget, slik at forskere kan samle inn data som bare var uten begrensninger i fortiden.