Rozproszone gromadzenie danych jest możliwe, aw przyszłości prawdopodobnie będzie wiązało się z technologią i pasywnym uczestnictwem.
Jak pokazuje eBird, rozproszone gromadzenie danych może być wykorzystywane do badań naukowych. Ponadto PhotoCity pokazuje, że problemy związane z pobieraniem próbek i jakością danych są potencjalnie możliwe do rozwiązania. W jaki sposób może działać gromadzenie danych rozproszonych w badaniach społecznych? Jednym z przykładów jest praca Susan Watkins i jej współpracowników z Malawi Journals Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . W tym projekcie 22 lokalnych mieszkańców - nazywanych "dziennikarzami" - czytało "dzienniki konwersacyjne", które szczegółowo opisywały rozmowy, o których słyszeli o AIDS w codziennym życiu zwykłych ludzi (w momencie rozpoczęcia projektu około 15% dorosłych w Malawi zarażono wirusem HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). Ze względu na status insiderów, ci dziennikarze mogli podsłuchać rozmowy, które mogły być niedostępne dla Watkinsa i jej zachodnich współpracowników badawczych (omówię tę kwestię w dalszej części rozdziału, kiedy udzielę rad dotyczących projektowania własnego projektu współpracy masowej) . Dane z Malawi Journals Project doprowadziły do wielu ważnych odkryć. Na przykład przed rozpoczęciem projektu wielu outsiderów uważało, że w Afryce subsaharyjskiej panuje cisza na temat AIDS, ale dzienniki konwersacyjne wykazały, że tak się nie stało: dziennikarze usłyszeli setki dyskusji na ten temat, w miejscach tak różnych, jak pogrzeby, bary i kościoły. Co więcej, charakter tych rozmów pomógł badaczom lepiej zrozumieć odporność na prezerwatywy; sposób wykorzystania prezerwatyw w wiadomościach dotyczących zdrowia publicznego był niespójny ze sposobem, w jaki był on dyskutowany w codziennym życiu (Tavory and Swidler 2009) .
Oczywiście, podobnie jak dane z eBird, dane z Malawi Journals Project nie są doskonałe, co zostało szczegółowo omówione przez Watkinsa i współpracowników. Na przykład nagrane rozmowy nie są losową próbką wszystkich możliwych rozmów. Są raczej niekompletnym spisem rozmów na temat AIDS. Pod względem jakości danych naukowcy uważali, że ich dziennikarze byli wysokiej jakości reporterami, o czym świadczy spójność w czasopismach i czasopismach. Oznacza to, że ponieważ wystarczająca liczba dziennikarzy została rozmieszczona w wystarczająco małym otoczeniu i skoncentrowana na konkretnym temacie, możliwe było zastosowanie redundancji w celu oceny i zapewnienia jakości danych. Na przykład, pracownik seks o nazwie "Stella" pojawił się kilka razy w dziennikach czterech różnych dziennikarzy (Watkins and Swidler 2009) . W celu dalszego rozwijania intuicji, tabela 5.3 pokazuje inne przykłady rozproszonego gromadzenia danych do badań społecznych.
Informacje zebrane | Odniesienie |
---|---|
Dyskusje na temat HIV / AIDS w Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Ulica błagająca o Londyn | Purdam (2014) |
Wydarzenia konfliktowe we Wschodnim Kongo | Windt and Humphreys (2016) |
Działalność gospodarcza w Nigerii i Liberii | Blumenstock, Keleher, and Reisinger (2016) |
Nadzór grypy | Noort et al. (2015) |
Wszystkie przykłady opisane w tej sekcji obejmowały aktywne uczestnictwo: dziennikarze przepisywali rozmowy, które słyszeli; birderzy przesłali swoje listy kontrolne dotyczące ptaków; lub gracze przesłali swoje zdjęcia. Ale co, jeśli udział był automatyczny i nie wymagał żadnych specjalnych umiejętności ani czasu na przesłanie? Jest to obietnica oferowana przez "czujność uczestniczącą" lub "zorientowanie na ludzi". Na przykład Patothol Pothole, projekt naukowców z MIT, zamontował przyspieszeniomierze GPS w siedmiu taksówkach w rejonie Bostonu (Eriksson et al. 2008) . Ponieważ przejeżdżając przez wyboisty pozostawia wyraźny sygnał akcelerometr, urządzenia te, umieszczone w poruszających się taksówkach, mogą tworzyć mapy dziur w Bostonie. Oczywiście, taksówki nie losowo próbują dróg, ale biorąc pod uwagę wystarczającą liczbę taksówek, może być wystarczający zasięg, aby dostarczyć informacji o dużej części ich miasta. Drugą zaletą systemów pasywnych, które opierają się na technologii, jest to, że eliminują proces przekazywania danych: podczas gdy wymaga to umiejętności, aby wesprzeć eBird (ponieważ musisz być w stanie wiarygodnie identyfikować gatunki ptaków), nie wymaga to specjalnych umiejętności przyczynić się do Patothoth Patrol.
Idąc dalej, podejrzewam, że wiele rozproszonych projektów zbierania danych zacznie korzystać z możliwości telefonów komórkowych, które są już obsługiwane przez miliardy ludzi na całym świecie. Te telefony mają już dużą liczbę czujników ważnych dla pomiarów, takich jak mikrofony, aparaty fotograficzne, urządzenia GPS i zegary. Co więcej, obsługują one aplikacje innych firm, umożliwiając naukowcom kontrolę nad bazowymi protokołami gromadzenia danych. Wreszcie mają połączenie z Internetem, dzięki czemu mogą odładowywać gromadzone dane. Istnieje wiele wyzwań technicznych, od niedokładnych czujników po ograniczony czas pracy baterii, ale problemy te z upływem czasu prawdopodobnie będą się zmniejszać wraz z rozwojem technologii. Z drugiej strony kwestie związane z prywatnością i etyką mogą być bardziej skomplikowane; Powrócę do kwestii etyki, kiedy udzielę rad dotyczących projektowania własnej, masowej współpracy.
W rozproszonych projektach gromadzenia danych wolontariusze dostarczają dane o świecie. Podejście to zostało już z powodzeniem zastosowane, a przyszłe zastosowania prawdopodobnie będą dotyczyły kwestii pobierania próbek i jakości danych. Na szczęście istniejące projekty, takie jak PhotoCity i Pothole Patrol, sugerują rozwiązania tych problemów. Ponieważ coraz więcej projektów korzysta z technologii, która umożliwia udział w zdecentralizowanym i pasywnym uczestnictwie, rozproszone projekty gromadzenia danych powinny dramatycznie zwiększyć skalę, umożliwiając naukowcom zbieranie danych, które były w przeszłości poza zasięgiem.