Duże dane są tworzone i gromadzone przez firmy i rządy w celach innych niż badania. Wykorzystanie tych danych do celów badawczych wymaga zatem ponownego ich zastosowania.
Pierwszy sposób, w jaki wiele osób spotyka się z badaniami społecznymi w erze cyfrowej, to tak zwane big data . Pomimo powszechnego używania tego terminu, nie ma zgody co do tego, czym są duże dane. Jednak jedna z najczęstszych definicji dużych danych koncentruje się na "3 V": objętość, różnorodność i prędkość. Z grubsza, istnieje wiele danych, w różnych formatach i jest tworzony stale. Niektórzy fani dużych danych dodają również inne "V", takie jak Veracity i Value, podczas gdy niektórzy krytycy dodają Vs, takie jak Vague and Vacuous. Zamiast 3 "V" (lub 5 "V" lub 7 "Vs"), dla celów badań społecznych, myślę, że lepszym miejscem do rozpoczęcia jest 5 "W": Kto, co, gdzie, kiedy , i dlaczego. W rzeczywistości uważam, że wiele wyzwań i możliwości stwarzanych przez duże źródła danych wynikają z jednego "W": dlaczego.
W epoce analogowej większość danych wykorzystywanych w badaniach społecznych powstała w celu prowadzenia badań. W erze cyfrowej firmy i rządy tworzą ogromne ilości danych do celów innych niż badania, takich jak świadczenie usług, generowanie zysków i administrowanie prawami. Ludzie kreatywni zdali sobie jednak sprawę, że możesz wykorzystać te korporacyjne i rządowe dane do celów badawczych. Wracając do analogii sztuki w rozdziale 1, tak jak Duchamp ponownie wykorzystał znaleziony obiekt do tworzenia sztuki, naukowcy mogą teraz przeformułować znalezione dane, aby stworzyć badania.
Podczas gdy istnieją niewątpliwie ogromne możliwości ponownego wykorzystania, wykorzystanie danych, które nie zostały stworzone do celów badawczych, również stawia nowe wyzwania. Porównaj, na przykład, serwis społecznościowy, taki jak Twitter, z tradycyjną ankietą opinii publicznej, taką jak ogólna ankieta społeczna. Głównym celem Twittera jest świadczenie usług swoim użytkownikom i osiąganie zysków. Z drugiej strony, ogólna ankieta społeczna koncentruje się na tworzeniu danych ogólnego przeznaczenia dla badań społecznych, w szczególności dla badań opinii publicznej. Ta różnica celów oznacza, że dane tworzone przez Twittera i dane generowane przez Ogólną ankietę społeczną mają różne właściwości, mimo że obie mogą być wykorzystywane do badania opinii publicznej. Twitter działa w skali i tempie, których ogólne badanie opinii społecznej nie może dopasować, ale w przeciwieństwie do ogólnej ankiety społecznej, Twitter nie sprawdza dokładnie użytkowników i nie stara się utrzymać porównywalności w czasie. Ponieważ te dwa źródła danych są tak różne, nie ma sensu powiedzieć, że ogólna ankieta społeczna jest lepsza od Twittera i na odwrót. Jeśli chcesz godzinowej miary globalnego nastroju (np. Golder and Macy (2011) ), Twitter jest najlepszy. Z drugiej strony, jeśli chcesz zrozumieć długofalowe zmiany w polaryzacji postaw w Stanach Zjednoczonych (np. DiMaggio, Evans, and Bryson (1996) ), najlepszym wyborem będzie Generalna ankieta społeczna. Mówiąc ogólniej, zamiast próbować twierdzić, że duże źródła danych są lepsze lub gorsze od innych rodzajów danych, w niniejszym rozdziale spróbuję wyjaśnić, jakiego rodzaju pytania badawcze mają duże źródła danych, i dla których rodzajów pytań mogą one nie być ideał.
Myśląc o dużych źródłach danych, wielu badaczy natychmiast skupia się na danych online tworzonych i gromadzonych przez firmy, takich jak dzienniki wyszukiwarek i posty w mediach społecznościowych. Jednak ten wąski fokus pozostawia dwa inne ważne źródła dużych zbiorów danych. Po pierwsze, coraz większe korporacyjne źródła danych pochodzą z urządzeń cyfrowych w świecie fizycznym. Na przykład w tym rozdziale opowiem Wam o badaniu, które zmieniło dane dotyczące supermarkecie, aby zbadać, w jaki sposób produktywność pracownika wpływa na wydajność jej rówieśników (Mas and Moretti 2009) . Następnie, w kolejnych rozdziałach, opowiem wam o naukowcach, którzy korzystali z rekordów połączeń z telefonów komórkowych (Blumenstock, Cadamuro, and On 2015) oraz danych rozliczeniowych tworzonych przez narzędzia elektryczne (Allcott 2015) . Jak pokazują te przykłady, korporacyjne duże źródła danych to coś więcej niż tylko zachowanie online.
Drugim ważnym źródłem dużych danych pominiętych przez wąski nacisk na zachowanie w Internecie są dane tworzone przez rządy. Te dane rządowe, które naukowcy nazywają rejestrami administracyjnymi rządu , obejmują takie dokumenty, jak akta podatkowe, zapisy szkolne i zapisy dotyczące statystyki życia (np. Rejestry narodzin i zgonów). Rządy tworzyły tego rodzaju dane, w niektórych przypadkach przez setki lat, a socjologowie wykorzystywali je przez prawie tak długo, jak długo byli naukowcami społecznymi. Zmieniła się jednak cyfryzacja, która znacznie ułatwiła rządom zbieranie, przesyłanie, przechowywanie i analizowanie danych. Na przykład w tym rozdziale opowiem Wam o badaniu, które wykorzystało dane pochodzące z taksówek cyfrowych w Nowym Jorku, aby poradzić sobie z zasadniczą debatą na temat ekonomiki pracy (Farber 2015) . Następnie, w późniejszych rozdziałach, opowiem Wam o tym, w jaki sposób wykorzystano zgromadzone przez rząd zapisy głosowania w ankiecie (Ansolabehere and Hersh 2012) oraz eksperyment (Bond et al. 2012) .
Myślę, że pomysł ponownego wykorzystania jest podstawą do uczenia się z dużych źródeł danych, dlatego zanim omówię bardziej szczegółowo właściwości dużych źródeł danych (sekcja 2.3) i ich zastosowania w badaniach (sekcja 2.4), chciałbym oferować dwie ogólne porady dotyczące zmiany przeznaczenia. Po pierwsze, może być kuszące myślenie o kontraście, który ustawiłem jako będący między "znalezionymi" danymi i "zaprojektowanymi" danymi. Jest blisko, ale to nie w porządku. Chociaż z perspektywy badaczy duże źródła danych są "odkrywane", nie spadają one z nieba. Zamiast tego źródła danych, które "odkryli" naukowcy, zostały zaprojektowane przez kogoś w jakimś celu. Ponieważ dane "znalezione" zostały zaprojektowane przez kogoś, zawsze staram się jak najwięcej zrozumieć o ludziach i procesach, które stworzyły twoje dane. Po drugie, kiedy zmieniasz dane, często bardzo pomocne jest wyobrazić sobie idealny zestaw danych dla twojego problemu, a następnie porównać ten idealny zestaw danych z tym, którego używasz. Jeśli sam nie zbierzesz danych, prawdopodobnie istnieją istotne różnice między tym, co chcesz a tym, co masz. Zauważenie tych różnic pomoże ci wyjaśnić, czego możesz i czego nie możesz nauczyć się z posiadanych danych, i może to zasugerować nowe dane, które powinieneś zebrać.
Z mojego doświadczenia wynika, że socjolodzy i badacze danych mają tendencję do odmiennego podejścia do zmiany przeznaczenia. Naukowcy zajmujący się naukami społecznymi, którzy są przyzwyczajeni do pracy z danymi przeznaczonymi do badań, zwykle szybko wskazują na problemy z zaabsorbowanymi danymi, ignorując ich zalety. Z drugiej strony, naukowcy zajmujący się danymi zazwyczaj szybko wskazują na zalety przywłaszczonych danych, ignorując jednocześnie ich słabości. Naturalnie najlepszym podejściem jest hybryda. Oznacza to, że badacze muszą zrozumieć cechy dużych źródeł danych - zarówno dobrych, jak i złych - a następnie dowiedzieć się, jak się z nich uczyć. I taki jest plan na pozostałą część tego rozdziału. W następnej sekcji opiszę dziesięć wspólnych cech dużych źródeł danych. Następnie w następnej sekcji opiszę trzy podejścia badawcze, które mogą dobrze działać z takimi danymi.