Măsurarea în sursele de date mari este mult mai puțin probabil să schimbe comportamentul.
O provocare a cercetării sociale este că oamenii își pot schimba comportamentul atunci când știu că sunt observați de cercetători. Oamenii de știință socială numesc în general această reactivitate (Webb et al. 1966) . De exemplu, oamenii pot fi mai generoși în studiile de laborator decât în studiile de teren, deoarece în prima ele sunt foarte conștienți de faptul că sunt observate (Levitt and List 2007a) . Un aspect al datelor importante pe care mulți cercetători îl găsesc promițători este că, în general, participanții nu sunt conștienți de faptul că datele lor sunt capturate sau au devenit atât de obișnuiți cu această colecție de date, încât nu le mai schimbă comportamentul. Deoarece participanții sunt nereactivi , prin urmare, multe surse de date mari pot fi folosite pentru a studia comportamente care nu au fost supuse măsurării exacte anterior. De exemplu, Stephens-Davidowitz (2014) folosit prevalența termenilor rasiste în interogările motoarelor de căutare pentru a măsura rasismul animus în diferite regiuni ale Statelor Unite. Caracteristicile nereactive și mari (a se vedea secțiunea 2.3.1) ale măsurătorilor cu date de căutare activate ar fi dificilă prin utilizarea altor metode, cum ar fi anchetele.
Non reactivitatea, totuși, nu asigură faptul că aceste date sunt oarecum o reflectare directă a comportamentului sau atitudinii oamenilor. De exemplu, un respondent dintr-un studiu bazat pe interviuri a spus: "Nu este că nu am probleme, nu le pun pe Facebook" (Newman et al. 2011) . Cu alte cuvinte, chiar dacă unele mari surse de date nu sunt reactive, ele nu sunt întotdeauna libere de părtinire socială de desirabilitate, tendința oamenilor de a se prezenta în cel mai bun mod posibil. Mai mult, după cum vom descrie mai târziu în acest capitol, comportamentul capturat în sursele de date mari este uneori afectat de scopurile proprietarilor de platforme, o problemă pe care o voi numi confuzie algoritmică . În cele din urmă, deși nereactivitatea este avantajoasă pentru cercetare, urmărirea comportamentului oamenilor fără consimțământul lor și conștientizarea ridică preocupări etice pe care le voi descrie în detaliu în capitolul 6.
Cele trei proprietăți pe care tocmai le-am descris - mari, întotdeauna și nereactive - sunt, în general, dar nu întotdeauna, avantajoase pentru cercetarea socială. Apoi, voi îndrepta către cele șapte proprietăți ale surselor mari de date - incomplete, inaccesibile, nereprezentative, derivează, confundate algoritmic, murdare și sensibile - care, în general, dar nu întotdeauna, creează probleme pentru cercetare.