Bez względu na wielkość dużych danych prawdopodobnie nie ma potrzebnych informacji.
Większość dużych źródeł danych jest niekompletna , w tym sensie, że nie mają informacji, których będziesz potrzebować do swoich badań. Jest to typowa cecha danych, które zostały utworzone do celów innych niż badania. Wielu badaczy zajmujących się socjologią miało już doświadczenie w radzeniu sobie z niekompletnością, na przykład istniejąca ankieta, która nie zadawała pytania, które było potrzebne. Niestety problemy niekompletności są bardziej ekstremalne w przypadku dużych zbiorów danych. Z mojego doświadczenia wynika, że w dużych danych brakuje trzech typów informacji przydatnych w badaniach społecznych: informacje demograficzne o uczestnikach, zachowanie na innych platformach i dane do wykorzystania struktur teoretycznych.
Spośród trzech rodzajów niekompletności najtrudniej rozwiązać problem niepełnych danych w celu operacjonalizacji konstrukcji teoretycznych. Z mojego doświadczenia wynika, że często jest on pomijany przypadkowo. Z grubsza teoretyczne konstrukcje są abstrakcyjnymi ideami, które naukowcy społeczni studiują i operacjonalizują teoretyczny konstrukt, proponując jakiś sposób na uchwycenie tego konstruktu za pomocą obserwowalnych danych. Niestety ten prosty, często brzmiący proces często okazuje się dość trudny. Na przykład, wyobraźmy sobie, jak próbujemy empirycznie przetestować pozornie proste twierdzenie, że ludzie bardziej inteligentni zarabiają więcej pieniędzy. Aby sprawdzić to twierdzenie, musisz zmierzyć "inteligencję". Ale czym jest inteligencja? Gardner (2011) argumentował, że faktycznie istnieje osiem różnych form inteligencji. A czy istnieją procedury, które mogłyby dokładnie zmierzyć którąkolwiek z tych form inteligencji? Pomimo ogromnej ilości pracy ze strony psychologów, pytania te nadal nie mają jednoznacznych odpowiedzi.
W związku z tym nawet stosunkowo proste roszczenia - ludzie bardziej inteligentni zarabiają więcej pieniędzy - mogą być trudne do oceny empirycznej, ponieważ może być ciężko operacjonalizować teoretyczne konstrukcje w danych. Inne przykłady teoretycznych konstruktów, które są ważne, ale trudne do operacjonalizacji, obejmują "normy", "kapitał społeczny" i "demokrację". Naukowcy zajmujący się (Cronbach and Meehl 1955) społecznymi nazywają dopasowanie konstruktów teoretycznych i trafność konstrukcji danych (Cronbach and Meehl 1955) . Jak sugeruje ta krótka lista konstruktów, trafność konstrukcji jest problemem, z którym socjologowie zmagają się od bardzo dawna. Ale z mojego doświadczenia wynika, że problemy z trafnością konstrukcji są jeszcze większe w przypadku pracy z danymi, które nie zostały stworzone do celów badawczych (Lazer 2015) .
Kiedy oceniasz wynik badania, jednym szybkim i przydatnym sposobem oceny trafności konstrukcji jest uzyskanie wyniku, który zwykle jest wyrażany w kategoriach konstruktów, i ponowne wyrażenie go w kategoriach użytych danych. Weźmy na przykład dwa hipotetyczne badania, które twierdzą, że ludzie bardziej inteligentni zarabiają więcej pieniędzy. W pierwszym badaniu naukowiec stwierdził, że ludzie, którzy osiągają dobre wyniki w Raven Progressive Matrices Test - dobrze przebadany test inteligencji analitycznej (Carpenter, Just, and Shell 1990) - mają wyższe dochody z deklaracji podatkowych. W drugim badaniu naukowiec odkrył, że osoby na Twitterze, które używały dłuższych słów, częściej wymieniają luksusowe marki. W obu przypadkach badacze mogli twierdzić, że wykazali, że ludzie bardziej inteligentni zarabiają więcej pieniędzy. Jednak w pierwszym badaniu konstrukcje teoretyczne są dobrze zoperacjonalizowane przez dane, podczas gdy w drugim nie. Co więcej, jak pokazuje ten przykład, więcej danych nie rozwiązuje automatycznie problemów z trafnością konstrukcji. Powinieneś wątpić w wyniki drugiego badania, niezależnie od tego, czy chodzi o milion tweetów, miliard tweetów czy trylionów tweetów. Dla badaczy nie znających idei ważności konstruktu, tabela 2.2 zawiera przykłady badań, które zawierają zoperacjonalizowane konstrukcje teoretyczne z wykorzystaniem cyfrowych danych śledzenia.
Źródło danych | Konstrukcja teoretyczna | Referencje |
---|---|---|
Dzienniki e-mail z uczelni (tylko meta-dane) | Związki międzyludzkie | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Media społecznościowe w serwisie Weibo | Zaangażowanie obywatelskie | Zhang (2016) |
Dzienniki e-mail od firmy (metadane i pełny tekst) | Kulturowe dopasowanie w organizacji | Srivastava et al. (2017) |
Chociaż problem niepełnych danych do przechwytywania teoretycznych konstrukcji jest dość trudny do rozwiązania, istnieją wspólne rozwiązania dla innych powszechnych rodzajów niekompletności: niepełna informacja demograficzna i niekompletne informacje na temat zachowań na innych platformach. Pierwszym rozwiązaniem jest zbieranie potrzebnych danych; Powiem ci o tym w rozdziale 3, kiedy opowiem ci o ankietach. Drugim głównym rozwiązaniem jest zrobienie czegoś, co naukowcy nazywają wnioskami atrybutów użytkownika, a socjologowie nazywają imputacją . W tym podejściu naukowcy wykorzystują informacje, które mają na temat niektórych osób, do wnioskowania o cechach innych osób. Trzecie możliwe rozwiązanie to połączenie wielu źródeł danych. Ten proces jest czasami nazywany powiązaniem rekordu . Moja ulubiona metafora tego procesu została napisana przez Dunn (1946) w pierwszym akapicie pierwszego artykułu, jaki kiedykolwiek napisano na temat łączenia zapisów:
"Każda osoba na świecie tworzy Księgę Życia. Ta Księga zaczyna się od narodzin i kończy śmiercią. Jego strony składają się z zapisów najważniejszych wydarzeń w życiu. Record linkage to nazwa procesu łączenia stron tej książki w tom. "
Kiedy Dunn napisał ten fragment, wyobrażał sobie, że Księga Życia może obejmować ważne wydarzenia życiowe, takie jak narodziny, małżeństwo, rozwód i śmierć. Jednak teraz, gdy tyle informacji o ludziach jest zapisanych, Księga Życia może być niesamowicie szczegółowym portretem, jeśli te różne strony (tj. Nasze cyfrowe ślady) mogą być ze sobą powiązane. Ta Księga Życia może być wspaniałym źródłem dla badaczy. Można ją jednak nazwać również bazą danych ruin (Ohm 2010) , która mogłaby zostać wykorzystana do wszystkich nieetycznych celów, co opiszę w rozdziale 6 (Etyka).