Niereprezentatywne dane są złe dla uogólnień poza próbą, ale mogą być całkiem przydatne do porównań wewnątrz-próbek.
Niektórzy socjologowie są przyzwyczajeni do pracy z danymi, które pochodzą z probabilistycznej próbki losowej z dobrze określonej populacji, takiej jak wszyscy dorośli w danym kraju. Ten rodzaj danych nazywa się reprezentatywnymi danymi, ponieważ próbka "reprezentuje" większą populację. Wielu badaczy nagradza reprezentatywne dane, a dla niektórych reprezentatywne dane są synonimem rygorystycznej nauki, podczas gdy dane niereprezentatywne są synonimem niechlujstwa. Co najwyżej, niektórzy sceptycy zdają się wierzyć, że nic nie można wyciągnąć z niereprezentatywnych danych. Jeśli to prawda, wydaje się, że poważnie ogranicza to, czego można się nauczyć z dużych źródeł danych, ponieważ wiele z nich nie jest reprezentatywnych. Na szczęście ci sceptycy mają tylko częściowo rację. Istnieją pewne cele badawcze, dla których niereprezentatywne dane wyraźnie nie są dobrze dopasowane, ale są też inne, dla których może być całkiem przydatne.
Aby zrozumieć to rozróżnienie, rozważmy naukowy klasyk: badanie Johna Snow'a nad epidemią cholery w 1853-54 w Londynie. W tamtym czasie wielu lekarzy uważało, że cholera była spowodowana "złym powietrzem", ale Snow uważał, że jest to choroba zakaźna, być może rozprzestrzeniająca się za pomocą wody pitnej ze ściekami. Aby przetestować ten pomysł, Snow skorzystał z tego, co możemy teraz nazwać naturalnym eksperymentem. Porównał stawki cholery dla gospodarstw domowych obsługiwanych przez dwie różne spółki wodne: Lambeth i Southwark & Vauxhall. Firmy te obsługiwały podobne gospodarstwa domowe, ale różniły się w jeden ważny sposób: w 1849 r. - kilka lat przed rozpoczęciem epidemii - Lambeth przeniósł swój punkt wlotowy przed głównym zrzutu ścieków w Londynie, podczas gdy Southwark i Vauxhall opuściły rurę dolotową w dół od odprowadzanie ścieków. Kiedy Snow porównał wskaźniki śmiertelności z cholery w gospodarstwach domowych obsługiwanych przez obie firmy, odkrył, że klienci firmy Southwark & Vauxhall - firmy, która dostarczała klientom skażonej ściekami - byli 10 razy bardziej narażeni na śmierć z powodu cholery. Wynik ten dostarcza mocnych dowodów naukowych dla argumentu Snowa na temat przyczyny cholery, mimo że nie jest oparty na reprezentatywnej próbie ludzi w Londynie.
Dane z tych dwóch firm nie byłyby jednak idealne, by odpowiedzieć na inne pytanie: jaka była powszechność cholery w Londynie w czasie epidemii? Na to drugie pytanie, które również jest ważne, znacznie lepiej byłoby mieć reprezentatywną próbę ludzi z Londynu.
Jak ilustruje to praca Snow'a, istnieją pewne pytania naukowe, dla których niereprezentatywne dane mogą być dość skuteczne i istnieją inne, dla których nie są dobrze dopasowane. Jednym z podstawowych sposobów na rozróżnienie tych dwóch rodzajów pytań jest to, że niektóre pytania dotyczą porównań wewnątrzpróbkowych, a niektóre dotyczą uogólnień poza próbą. To rozróżnienie można dokładniej zilustrować innym klasycznym badaniem epidemiologicznym: British Doctors Study, które odegrało ważną rolę w wykazaniu, że palenie powoduje raka. W tym badaniu Richard Doll i A. Bradford Hill obserwowali około 25 000 lekarzy płci męskiej przez kilka lat i porównali wskaźniki zgonów na podstawie ilości, którą wypalili podczas rozpoczęcia badania. Doll and Hill (1954) odkrył silną zależność między ekspozycją a reakcją: im silniej palili, tym bardziej prawdopodobne było, że umrą z powodu raka płuc. Oczywiście byłoby nierozsądne oszacowanie częstości występowania raka płuc u wszystkich Brytyjczyków w oparciu o tę grupę mężczyzn lekarzy, ale porównanie z próbą nadal dostarcza dowodów, że palenie powoduje raka płuc.
Teraz, kiedy zilustrowałem różnicę między porównaniami próbek i out-of-sample uogólnień, dwa zastrzeżenia są w porządku. Po pierwsze, istnieją oczywiście pytania dotyczące zakresu, w jakim związek, który mieści się w próbie brytyjskich lekarzy płci męskiej, znajdzie się również w próbie kobiet, brytyjskich lekarzy lub męskich brytyjskich pracowników fabryki lub kobiet niemieckich pracowników fabryki lub wielu innych grup. Te pytania są interesujące i ważne, ale różnią się od pytań dotyczących zakresu, w jakim możemy generalizować próbki od populacji. Zauważ, na przykład, że prawdopodobnie podejrzewasz, że związek między paleniem a rakiem, który został znaleziony w męskich brytyjskich lekarzach, prawdopodobnie będzie podobny w tych innych grupach. Twoja zdolność dokonania tej ekstrapolacji nie wynika z faktu, że brytyjscy lekarze płci męskiej są probabilistyczną próbą losową z dowolnej populacji; wynika raczej ze zrozumienia mechanizmu, który łączy palenie z rakiem. Tak więc generalizacja z próbki do populacji, z której została narysowana, jest w dużej mierze kwestią statystyczną, ale pytania dotyczące możliwości przenoszenia wzoru znalezionego w jednej grupie do innej grupy są w dużej mierze zagadnieniem niestatystycznym (Pearl and Bareinboim 2014; Pearl 2015) .
W tym momencie sceptyk może wskazać, że większość wzorców społecznych jest prawdopodobnie mniej przenośna w różnych grupach niż związek między paleniem a rakiem. I zgadzam się. Zakres, w jakim powinniśmy oczekiwać, że wzorce będą przenośne, jest ostatecznie kwestią naukową, która musi zostać rozstrzygnięta na podstawie teorii i dowodów. Nie należy automatycznie zakładać, że wzorce będą transportowalne, ale nie należy również zakładać, że nie będą mogły być transportowane. Te nieco abstrakcyjne pytania dotyczące przenośności będą ci znane, jeśli będziesz śledzić debaty na temat tego, ile naukowcy mogą dowiedzieć się o ludzkich zachowaniach, studiując studentów studiów licencjackich (Sears 1986, [@henrich_most_2010] ) . Mimo tych debat nierozsądne byłoby stwierdzenie, że naukowcy nie mogą się niczego nauczyć od studiów licencjackich.
Drugim zastrzeżeniem jest to, że większość badaczy z niereprezentatywnymi danymi nie jest tak ostrożna jak Snow, Doll czy Hill. Aby zilustrować, co może pójść nie tak, kiedy naukowcy próbują uzyskać próbę uogólnienia na podstawie niereprezentatywnych danych, chciałbym opowiedzieć o studium niemieckich wyborów parlamentarnych w 2009 roku Andranika Tumasjana i jego kolegów (2010) . Analizując ponad 100 000 tweetów, odkryli, że odsetek tweetów wymienianych przez partię polityczną jest proporcjonalny do proporcji głosów, jakie partia ta otrzymała w wyborach parlamentarnych (rys. 2.3). Innymi słowy, okazało się, że dane na Twitterze, zasadniczo bezpłatne, mogą zastąpić tradycyjne badania opinii publicznej, które są kosztowne ze względu na nacisk na reprezentatywne dane.
Biorąc pod uwagę to, co prawdopodobnie już wiesz o Twitterze, powinieneś natychmiast sceptycznie podchodzić do tego wyniku. Niemcy na Twitterze w 2009 roku nie byli probabilistyczną losową próbą niemieckich wyborców, a zwolennicy niektórych partii mogli tweetować o polityce znacznie częściej niż zwolennicy innych partii. W związku z tym wydaje się zaskakujące, że wszystkie możliwe uprzedzenia, które można sobie wyobrazić, w jakiś sposób zniosą tak, że dane te będą bezpośrednio odzwierciedlać niemieckich wyborców. W rzeczywistości wyniki w Tumasjan et al. (2010) okazało się zbyt piękne, aby mogło być prawdziwe. W kolejnym artykule autorstwa Andreasa Jungherra, Pascala Jürgensa i Haralda Schoena (2012) wskazano, że pierwotna analiza wykluczyła partię polityczną, która faktycznie otrzymała największą liczbę wzmianek na Twitterze: Partia Piratów, mała partia, która walczy z regulacjami rządowymi Internetu. Po włączeniu Partii Piratów do analizy, wzmianki na Twitterze stają się straszliwym predyktorem wyników wyborów (rysunek 2.3). Jak pokazuje ten przykład, użycie niereprezentatywnych źródeł dużych danych do generalizowania poza próbą może pójść nie tak. Ponadto należy zauważyć, że fakt, że było 100 000 tweetów, jest w zasadzie nieistotny: wiele niereprezentatywnych danych jest nadal niereprezentatywnych, temat, do którego powrócę w rozdziale 3, gdy będę omawiać ankiety.
Podsumowując, wiele dużych źródeł danych nie jest reprezentatywnymi próbkami pochodzącymi z niektórych dobrze zdefiniowanych populacji. W przypadku pytań, które wymagają uogólnienia wyników z próbki do populacji, z której zostały narysowane, jest to poważny problem. Jednak w przypadku pytań dotyczących porównań wewnątrzpróbowych dane niereprezentatywne mogą być potężne, o ile naukowcy jasno określą ich przykłady i twierdzą poparcie dla przenośności za pomocą dowodów teoretycznych lub empirycznych. Moją nadzieją jest, że duże źródła danych umożliwią badaczom dokonanie większej ilości porównań w próbach w wielu niereprezentatywnych grupach i przypuszczam, że dane szacunkowe z wielu różnych grup zrobią więcej, aby przyspieszyć badania społeczne niż pojedyncze oszacowanie z probabilistycznego losowego próba.