Pomiar w dużych źródłach danych znacznie rzadziej zmienia zachowanie.
Jednym z wyzwań badań społecznych jest to, że ludzie mogą zmieniać swoje zachowanie, gdy wiedzą, że są obserwowani przez naukowców. Naukowcy społeczni na ogół nazywają tę reaktywność (Webb et al. 1966) . Na przykład ludzie mogą być bardziej hojni w badaniach laboratoryjnych niż badania terenowe, ponieważ w pierwszym przypadku są oni bardzo świadomi tego, że są obserwowani (Levitt and List 2007a) . Jednym z aspektów dużych zbiorów danych, które wielu badaczy uważa za obiecujące, jest to, że uczestnicy zazwyczaj nie są świadomi, że ich dane są przechwytywane lub przyzwyczaili się do gromadzenia danych, że nie zmieniają już swojego zachowania. Ponieważ uczestnicy nie reagują , dlatego wiele źródeł dużych danych można wykorzystać do zbadania zachowania, które wcześniej nie było możliwe do dokładnego pomiaru. Na przykład Stephens-Davidowitz (2014) wykorzystał przewagę terminów rasistowskich w wyszukiwarkach, aby zmierzyć rasową animus w różnych regionach Stanów Zjednoczonych. Niereaktywny i duży (patrz sekcja 2.3.1) charakter danych wyszukiwania umożliwił pomiary, które byłyby trudne przy użyciu innych metod, takich jak ankiety.
Brak reaktywności nie zapewnia jednak, że dane te są w jakiś sposób bezpośrednim odzwierciedleniem zachowań lub postaw ludzi. Na przykład, jak jeden z respondentów w badaniu przeprowadzonym w ramach wywiadu powiedział: "Nie chodzi o to, że nie mam problemów, po prostu nie umieszczam ich na Facebooku" (Newman et al. 2011) . Innymi słowy, nawet jeśli niektóre duże źródła danych nie są reaktywne, nie zawsze są wolne od uprzedzeń społecznych, tendencji do tego, aby ludzie chcieli zaprezentować się w najlepszy możliwy sposób. Co więcej, jak opiszę w dalszej części tego rozdziału, zachowanie przechwycone w dużych źródłach danych jest czasami zależne od celów właścicieli platform, problemu, który nazwałbym algorytmicznym zakłóceniem . Wreszcie, chociaż brak reaktywności jest korzystny dla badań, śledzenie zachowań ludzi bez ich zgody i świadomości budzi obawy natury etycznej, które opiszę szczegółowo w rozdziale 6.
Trzy właściwości, które opisałem - duże, zawsze aktualne i niereaktywne - są generalnie, ale nie zawsze, korzystne dla badań społecznych. Następnie przejdę do siedmiu właściwości dużych źródeł danych - niekompletnych, niedostępnych, niereprezentatywnych, dryfujących, algorytmicznie zakodowanych, brudnych i wrażliwych - które zazwyczaj, ale nie zawsze, stwarzają problemy dla badań.