Jednym z rodzajów obserwacji, których nie uwzględniono w tym rozdziale, jest etnografia. Więcej informacji na temat etnografii w przestrzeniach cyfrowych można znaleźć w Boellstorff et al. (2012) , a więcej informacji na temat etnografii w mieszanych przestrzeniach cyfrowych i fizycznych można znaleźć na stronie Lane (2016) .
Nie ma jednej zgodnej definicji "dużych zbiorów danych", ale wiele definicji wydaje się koncentrować na "3 V": objętości, odmianie i prędkości (np. Japec et al. (2015) ). Zobacz De Mauro et al. (2015) do przeglądu definicji.
Moje uwzględnienie danych administracyjnych rządu w kategorii dużych zbiorów danych jest nieco niezwykłe, chociaż inni również to zrobili, w tym Legewie (2015) , Connelly et al. (2016) oraz Einav and Levin (2014) . Więcej informacji na temat wartości administracyjnych danych rządowych dla badań można znaleźć w Card et al. (2010) , Adminstrative Data Taskforce (2012) oraz Grusky, Smeeding, and Snipp (2015) .
Aby zobaczyć badania administracyjne z wewnątrz rządowego systemu statystycznego, w szczególności US Census Bureau, zobacz Jarmin and O'Hara (2016) . Aby dowiedzieć się, jak traktować dokumentację administracyjną dotyczącą statystyk w Szwecji, zobacz Wallgren and Wallgren (2007) .
W tym rozdziale krótko porównałem tradycyjną ankietę, taką jak ogólna ankieta społeczna (GSS) ze źródłem danych w mediach społecznościowych, takim jak Twitter. Dokładne i staranne porównanie tradycyjnych ankiet i danych w mediach społecznościowych znajduje się w Schober et al. (2016) .
Te 10 cech dużych zbiorów zostało opisanych na wiele różnych sposobów przez różnych autorów. Pisanie, które wpłynęło na moje myślenie w tych kwestiach, obejmuje Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) oraz Goldstone and Lupyan (2016) .
W całym tym rozdziale użyłem terminu " cyfrowe ślady" , które uważam za względnie neutralne. Innym popularnym określeniem cyfrowych śladów są cyfrowe ślady (Golder and Macy 2014) , ale jak podkreśla Hal Abelson, Ken Ledeen i Harry Lewis (2008) , bardziej odpowiednim terminem są prawdopodobnie cyfrowe odciski palców . Gdy tworzysz ślady, wiesz o tym, co się dzieje, a twoich śladów nie można na ogół zidentyfikować osobiście. To samo dotyczy cyfrowych śladów. W rzeczywistości pozostawiasz ślady przez cały czas, o których masz bardzo małą wiedzę. I chociaż te ślady nie mają na nich twojego imienia, często mogą być odesłane do ciebie. Innymi słowy, są bardziej jak odciski palców: niewidoczne i identyfikujące.
Więcej na temat tego, dlaczego duże M. Lin, Lucas, and Shmueli (2013) danych sprawiają, że testy statystyczne są problematyczne, patrz M. Lin, Lucas, and Shmueli (2013) oraz McFarland and McFarland (2015) . Kwestie te powinny skłonić badaczy do skupienia się na znaczeniu praktycznym, a nie statystycznym.
Więcej informacji o tym, jak Raj Chetty i współpracownicy uzyskali dostęp do dokumentacji podatkowej, można znaleźć w Mervis (2014) .
Duże zestawy danych mogą również powodować problemy obliczeniowe, które są generalnie poza możliwościami jednego komputera. Dlatego naukowcy dokonujący obliczeń na dużych zbiorach danych często rozpowszechniają pracę na wielu komputerach, proces ten jest czasami nazywany programowaniem równoległym . Wprowadzenie do programowania równoległego, w szczególności języka o nazwie Hadoop, patrz Vo and Silvia (2016) .
Rozważając stale dane, ważne jest, aby zastanowić się, czy porównujesz dokładnie tych samych ludzi w czasie, czy porównujesz kilka zmieniających się grup ludzi; patrz na przykład Diaz et al. (2016) .
Klasyczną książką o niereagujących środkach jest Webb et al. (1966) . Przykłady w tej książce pochodzą z epoki cyfrowej, ale wciąż się oświetlają. Przykłady ludzi zmieniających swoje zachowanie z powodu obecności masowego nadzoru, zobacz Penney (2016) i Brayne (2014) .
Reaktywność jest ściśle związana z tym, co badacze nazywają efektami popytu (Orne 1962; Zizzo 2010) i efektem Hawthorne (Adair 1984; Levitt and List 2011) .
Więcej informacji na temat łączenia rekordów można znaleźć w Dunn (1946) oraz Fellegi and Sunter (1969) (historyczne) oraz Larsen and Winkler (2014) (współczesne). Podobne podejścia zostały również opracowane w informatyce pod takimi nazwami jak deduplikacja danych, identyfikacja instancji, dopasowywanie nazw, wykrywanie duplikatów i wykrywanie duplikatów rekordów (Elmagarmid, Ipeirotis, and Verykios 2007) . Istnieją również podejścia chroniące prywatność w celu rejestrowania powiązań, które nie wymagają transmisji danych osobowych (Schnell 2013) . Facebook opracował również proces łączenia swoich zapisów z zachowaniem podczas głosowania; zrobiono to, aby ocenić eksperyment, o którym powiem w rozdziale 4 (Bond et al. 2012; Jones et al. 2013) .
Aby dowiedzieć się więcej na temat trafności konstrukcji, zobacz rozdział 3 Shadish, Cook, and Campbell (2001) .
Aby uzyskać więcej informacji na temat błędów w rejestrze wyszukiwania AOL, zobacz Ohm (2010) . Oferuję porady dotyczące współpracy z firmami i rządami w rozdziale 4, kiedy opisuję eksperymenty. Wielu autorów wyraziło zaniepokojenie badaniami, które opierają się na niedostępnych danych, patrz Huberman (2012) i boyd and Crawford (2012) .
Dobrym sposobem naukowcy uniwersyteccy nabyć dostęp do danych jest pracować w firmie jako stażysta lub odwiedzając badacza. Oprócz umożliwienia dostępu do danych, proces ten pomoże również badacz dowiedzieć się więcej o tym, jak dane zostały utworzone, co jest istotne dla analizy.
Pod względem dostępu do danych rządowych, Mervis (2014) omawia, w jaki sposób Raj Chetty i współpracownicy uzyskali dostęp do dokumentów podatkowych wykorzystywanych w swoich badaniach dotyczących mobilności społecznej.
Aby dowiedzieć się więcej na temat historii "reprezentatywności" jako pojęcia, patrz Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) oraz Kruskal and Mosteller (1980) .
Moje streszczenia pracy Śniegu i pracy Lalki i Wzgórza były krótkie. Więcej informacji na temat pracy Snow'a nad cholerą można znaleźć w Freedman (1991) . Więcej informacji na temat British Doctors Study patrz Doll et al. (2004) i Keating (2014) .
Wielu badaczy z zaskoczeniem dowie się, że chociaż Doll i Hill gromadzili dane od lekarzy i lekarzy w wieku poniżej 35 lat, celowo nie wykorzystali tych danych w swojej pierwszej analizie. Jak argumentowali: "Ponieważ rak płuc jest stosunkowo rzadki u kobiet i mężczyzn w wieku poniżej 35 lat, mało prawdopodobne jest uzyskanie przydatnych danych w tych grupach przez kilka następnych lat. W niniejszym wstępnym sprawozdaniu ograniczyliśmy zatem naszą uwagę do mężczyzn w wieku 35 lat i starszych. " Rothman, Gallacher, and Hatch (2013) , który ma prowokacyjny tytuł" Dlaczego należy unikać reprezentatywności ", stanowią bardziej ogólny argument za wartością celowo tworzy niereprezentatywne dane.
Niereprezentatywność jest poważnym problemem dla naukowców i rządów, którzy chcą wypowiadać się na temat całej populacji. Nie stanowi to problemu dla firm, które zazwyczaj koncentrują się na swoich użytkownikach. Aby uzyskać więcej informacji na temat tego, w jaki sposób Statistics Netherlands rozważa kwestię niereprezentatywności dużych danych biznesowych, zobacz Buelens et al. (2014) .
Przykłady badaczy wyrażających obawy dotyczące niereprezentatywnego charakteru dużych źródeł danych - patrz boyd and Crawford (2012) , K. Lewis (2015b) i Hargittai (2015) .
Aby uzyskać bardziej szczegółowe porównanie celów badań społecznych i badań epidemiologicznych, zobacz Keiding and Louis (2016) .
Więcej informacji na temat prób wykorzystania Twittera do Jungherr (2013) próbą uogólnień na temat głosujących, zwłaszcza w przypadku wyborów w 2009 r., Jungherr (2013) znaleźć w Jungherr (2013) i Jungherr (2015) . Po pracy Tumasjan et al. (2010) naukowcy na całym świecie korzystali z bardziej zaawansowanych metod - takich jak analiza sentymentów, aby odróżnić pozytywne i negatywne wzmianki od stron - w celu zwiększenia możliwości danych Twittera do przewidywania różnych typów wyborów (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Oto, jak Huberty (2015) podsumował wyniki tych prób przewidywania wyborów:
"Wszystkie znane metody prognozowania oparte na mediach społecznościowych zawiodły, gdy zostały poddane wymogom prawdziwego prognostycznego prognozowania wyborczego. Te awarie wydają się wynikać z podstawowych właściwości mediów społecznościowych, a nie z trudności metodologicznych lub algorytmicznych. Krótko mówiąc, media społecznościowe nie dostarczają stabilnego, bezstronnego, reprezentatywnego obrazu elektoratu i zapewne nigdy go nie zapewnią; a przykłady mediów społecznościowych pozbawione są wystarczających danych, aby rozwiązać te problemy post hoc. "
W rozdziale 3 opiszę próbkowanie i oszacowanie znacznie bardziej szczegółowo. Nawet jeśli dane nie są reprezentatywne, pod pewnymi warunkami można je zważyć, aby uzyskać dobre szacunki.
Dryf systemu jest bardzo trudno dostrzec z zewnątrz. Jednak projekt MovieLens (omówiony bardziej szczegółowo w rozdziale 4) jest prowadzony od ponad 15 lat przez akademicką grupę badawczą. W ten sposób udało im się udokumentować i udostępnić informacje o tym, w jaki sposób system ewoluował w czasie oraz o tym, jak może to wpłynąć na analizę (Harper and Konstan 2015) .
Wielu badaczy skupiło się na dryfowaniu na Twitterze: Liu, Kliman-Silver, and Mislove (2014) oraz Tufekci (2014) .
Jednym ze sposobów radzenia sobie z dryfowaniem populacji jest stworzenie grupy użytkowników, która umożliwia badaczom studiowanie tych samych ludzi w czasie, patrz Diaz et al. (2016) .
Po raz pierwszy usłyszałem termin "algorytmicznie zakłopotany" użyty przez Jona Kleinberga w przemówieniu, ale niestety nie pamiętam, kiedy i gdzie odbyło się przemówienie. Pierwszy raz, kiedy zobaczyłem ten termin w druku, był w Anderson et al. (2015) , która jest interesującą dyskusją na temat tego, w jaki sposób algorytmy używane przez portale randkowe mogą utrudnić badaczom wykorzystanie danych z tych witryn do badania preferencji społecznych. K. Lewis (2015a) ta została podniesiona przez K. Lewis (2015a) w odpowiedzi na Anderson et al. (2014) .
Oprócz Facebooka serwis Twitter zaleca również użytkownikom, aby śledzili ich działanie w oparciu o koncepcję zamknięcia triadycznego; patrz Su, Sharma, and Goel (2016) . Tak więc poziom zamknięcia triadycznego w Twitterze jest połączeniem pewnej ludzkiej skłonności do triadycznego zamykania i jakiejś algorytmicznej tendencji do promowania zamknięć triadycznych.
Więcej informacji o performatywności - w szczególności o tym, że niektóre teorie społeczne są "silnikami, a nie kamerami" (tj. Raczej kształtują świat, a nie tylko go opisują) - patrz Mackenzie (2008) .
Rządowe agencje statystyczne wymagają czyszczenia danych statystycznych . De Waal, Puts, and Daas (2014) opisują techniki edycji danych statystycznych opracowane dla danych ankietowych i badają zakres, w jakim mają zastosowanie do dużych źródeł danych, a Puts, Daas, and Waal (2015) prezentują niektóre z tych samych pomysłów na bardziej ogólna publiczność.
Aby zapoznać się z przeglądem botów społecznościowych, patrz: Ferrara et al. (2016) . W przypadku niektórych przykładów badań poświęconych wyszukiwaniu spamu na Twitterze, patrz Clark et al. (2016) i Chu et al. (2012) . Wreszcie, Subrahmanian et al. (2016) opisują wyniki DARPA Twitter Bot Challenge, masowej współpracy zaprojektowanej do porównywania podejść do wykrywania botów na Twitterze.
Ohm (2015) dokonuje przeglądu wcześniejszych badań nad pojęciem poufnych informacji i oferuje test wieloczynnikowy. Cztery czynniki, które proponuje, to wielkość szkody, prawdopodobieństwo szkód, obecność poufnego związku i to, czy ryzyko odzwierciedla poważne obawy.
Studium taksówek Farbera w Nowym Jorku oparte było na wcześniejszych badaniach Camerer et al. (1997) którym zastosowano trzy różne próbki wygody arkuszy papieru podróżnego. Wcześniejsze badania wykazały, że kierowcy wydają się być docelowymi: pracowali mniej w dniach, w których ich płace były wyższe.
W dalszej pracy King i współpracownicy zbadali cenzurę online w Chinach (King, Pan, and Roberts 2014, [@king_how_2016] ) . Aby zapoznać się z podobnym podejściem do pomiaru cenzury w Internecie w Chinach, zobacz Bamman, O'Connor, and Smith (2012) . Więcej informacji na temat metod statystycznych, takich jak te zastosowane w King, Pan, and Roberts (2013) aby oszacować sentyment 11 milionów postów, patrz Hopkins and King (2010) . Więcej o nadzorowanym uczeniu się, patrz James et al. (2013) (mniej techniczny) i Hastie, Tibshirani, and Friedman (2009) (bardziej techniczny).
Prognozowanie jest ważną częścią nauki o danych przemysłowych (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jednym z rodzajów prognoz, które są zwykle przeprowadzane przez badaczy społecznych, jest prognozowanie demograficzne; patrz, na przykład, Raftery et al. (2012) .
Google Flu Trends nie był pierwszym projektem wykorzystującym dane wyszukiwania do prognozowania rozpowszechnienia grypy. W rzeczywistości badacze w Stanach Zjednoczonych (Polgreen et al. 2008; Ginsberg et al. 2009) oraz Szwecja (Hulth, Rydevik, and Linde 2009) odkryli, że niektóre terminy wyszukiwania (np. "Grypa") przewidują krajowy nadzór nad zdrowiem publicznym dane przed ich wydaniem. Następnie wiele, wiele innych projektów próbowało wykorzystać cyfrowe dane śledzenia do wykrywania nadzoru choroby; patrz Althouse et al. (2015) do przeglądu.
Oprócz wykorzystywania cyfrowych danych śledzenia do prognozowania wyników zdrowotnych, doszło również do ogromnej pracy z wykorzystaniem danych Twittera w celu przewidywania wyników wyborów; za opinie patrz Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (rozdział 7) i Huberty (2015) . Nowcasting wskaźników ekonomicznych, takich jak produkt krajowy brutto (PKB), jest również powszechny w bankach centralnych, patrz Bańbura et al. (2013) . Tabela 2.8 zawiera kilka przykładów badań wykorzystujących pewien rodzaj cyfrowego śladu do przewidywania zdarzeń na świecie.
Cyfrowy ślad | Wynik | Cytat |
---|---|---|
Świergot | Przychody z kas fiskalnych w Stanach Zjednoczonych | Asur and Huberman (2010) |
Wyszukaj dzienniki | Sprzedaż filmów, muzyki, książek i gier wideo w USA | Goel et al. (2010) |
Świergot | Dow Jones Industrial Average (amerykański rynek akcji) | Bollen, Mao, and Zeng (2011) |
Media społecznościowe i dzienniki wyszukiwania | Badania nastrojów inwestorów i giełd w Stanach Zjednoczonych, Wielkiej Brytanii, Kanadzie i Chinach | Mao et al. (2015) |
Wyszukaj dzienniki | Występowanie gorączki denga w Singapurze i Bangkoku | Althouse, Ng, and Cummings (2011) |
Na koniec, Jon Kleinberg i jego współpracownicy (2015) wskazali, że problemy z prognozowaniem dzielą się na dwie, subtelnie różne kategorie i że socjologowie mają tendencję do koncentrowania się na jednym i ignorowania drugiego. Wyobraź sobie jednego twórcę polityki, zadzwonię do niej Anna, która stoi w obliczu suszy i musi zdecydować, czy zatrudnić szamana do tańca deszczu, aby zwiększyć szansę na deszcz. Inna politykarka, nazwałbym ją Betty, musi zdecydować, czy wziąć parasol do pracy, żeby nie zmoknąć w drodze do domu. Zarówno Anna, jak i Betty mogą podjąć lepszą decyzję, jeśli rozumieją pogodę, ale muszą znać różne rzeczy. Anna musi zrozumieć, czy deszczowy deszcz powoduje deszcz. Z drugiej strony Betty nie musi rozumieć niczego na temat przyczynowości; ona po prostu potrzebuje dokładnej prognozy. Badacze społeczni często koncentrują się na problemach, takich jak ten, z którym ma do czynienia Anna - które Kleinberg i jego współpracownicy nazywają problemami polityki "deszczowego tańca" - ponieważ zawierają pytania o przyczynowość. Pytania takie jak te, z którymi boryka się Betty - które Kleinberg i współpracownicy nazywają "parasolowymi" problemami politycznymi - również mogą być dość ważne, ale od badaczy społecznych poświęcono im znacznie mniej uwagi.
W czasopiśmie PS Political Science odbyło się sympozjum na temat dużych danych, wnioskowania przyczynowego i teorii formalnej, a Clark and Golder (2015) podsumowują każdy wkład. Dziennik Proceedings of National Academy of Sciences w Stanach Zjednoczonych przeprowadził sympozjum na temat wnioskowania przyczynowego i dużych danych, a Shiffrin (2016) podsumowuje każdy wkład. W przypadku metod uczenia maszynowego, które próbują automatycznie odkrywać naturalne eksperymenty w dużych źródłach danych, zobacz Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) oraz Sharma, Hofman, and Watts (2016) .
Jeśli chodzi o naturalne eksperymenty, Dunning (2012) zapewnia wstępne podejście do książki o wielu przykładach. Dla sceptycznego spojrzenia na naturalne eksperymenty patrz Rosenzweig and Wolpin (2000) (ekonomia) lub Sekhon and Titiunik (2012) (nauki polityczne). Deaton (2010) oraz Heckman and Urzúa (2010) twierdzą, że skupienie się na naturalnych eksperymentach może skłonić badaczy do skupienia się na oszacowaniu nieistotnych skutków przyczynowych; Imbens (2010) przeciwstawia te argumenty bardziej optymistycznym spojrzeniem na wartość naturalnych eksperymentów.
Opisując, w jaki sposób badacz mógłby przejść od oszacowania efektu bycia zredagowanym do efektu serwowania, opisałem technikę zwaną zmiennymi instrumentalnymi . Imbens and Rubin (2015) , w rozdziałach 23 i 24, przedstawiają i wykorzystują losowanie loterii jako przykład. Wpływ służby wojskowej na kompilatory jest czasem nazywany średnim efektem przyczynowym (CAcE), a czasem lokalnym średnim efektem leczenia (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) i Bollen (2012) oferują przeglądy wykorzystania zmiennych instrumentalnych w politologii, ekonomii i socjologii, a Sovey and Green (2011) udostępnia "listę kontrolną czytelnika" dla ocena badań za pomocą zmiennych instrumentalnych.
Okazuje się, że loteria losowa z 1970 roku nie została właściwie dobrana losowo; były niewielkie odchylenia od czystej przypadkowości (Fienberg 1971) . Berinsky and Chatfield (2015) argumentują, że to niewielkie odchylenie nie ma istotnego znaczenia i omawia znaczenie prawidłowo przeprowadzonej randomizacji.
Jeśli chodzi o dopasowanie, patrz Stuart (2010) aby uzyskać optymistyczny przegląd, a Sekhon (2009) - pesymistyczny przegląd. Więcej informacji na temat dopasowywania jako rodzaju przycinania, patrz Ho et al. (2007) . Znalezienie jednego idealnego dopasowania dla każdej osoby jest często trudne, a to wprowadza szereg komplikacji. Po pierwsze, kiedy dokładne wyniki nie są dostępne, badacze muszą zdecydować, jak zmierzyć odległość między dwoma jednostkami i czy dana odległość jest wystarczająco blisko. Druga złożoność powstaje, gdy naukowcy chcą stosować wiele dopasowań dla każdego przypadku w grupie leczenia, ponieważ może to prowadzić do bardziej precyzyjnych oszacowań. Obie te kwestie, a także inne, zostały szczegółowo opisane w rozdziale 18 artykułów Imbens and Rubin (2015) . Zobacz także część II ( ??? ) .
Zobacz Dehejia and Wahba (1999) dla przykładu, gdzie metody dopasowania były w stanie uzyskać oszacowania podobne do tych z randomizowanego kontrolowanego eksperymentu. Ale zobacz Arceneaux, Gerber, and Green (2006) i Arceneaux, Gerber, and Green (2010) dla przykładów, w których metody dopasowania nie powielają eksperymentalnego testu porównawczego.
Rosenbaum (2015) oraz Hernán and Robins (2016) oferują inne porady dotyczące odkrywania użytecznych porównań w dużych źródłach danych.