Suurte andmeallikate mõõtmine muudab käitumist palju vähem tõenäoliselt.
Üks sotsiaalteadmiste väljakutse on see, et inimesed saavad oma käitumist muuta, kui nad teavad, et teadlased neid jälgivad. Sotsiaalteadlased kutsuvad seda üldiselt reaktiivsust (Webb et al. 1966) . Näiteks võivad inimesed laboratoorsetes uuringutes olla suuremad kui väliuuringud, sest esimestel on nad väga teadlikud, et neid jälgitakse (Levitt and List 2007a) . Suurte andmete üks aspekt, mida paljud teadlased leiavad, on paljulubav, et osalejad ei ole üldiselt teadlikud oma andmete hõivest või on nad selliseks andmete kogumiseks nii harjunud, et nad enam oma käitumist ei muuda. Kuna osalejad on mittereaktiivsed , võib seetõttu kasutada paljusid suuremahuliste andmete allikaid, et uurida käitumist, mida pole varem täpselt mõõdetud. Näiteks kasutas Stephens-Davidowitz (2014) rassistlike terminite esinemissagedust otsingumootori päringutes, et mõõta rassilist animus USA eri piirkondades. Otsingutulemuste lubatud mõõtmiste mittereaktiivne ja suur (vt jaotis 2.3.1) olemus, mida oleks raske kasutada muude meetodite, näiteks uuringute abil.
Mitteaktiivsus aga ei taga, et need andmed on mingil moel inimese käitumise või suhtumise otseselt peegeldavad. Näiteks kui üks vastanutest küsitletud uuringus ütles: "See pole nii, et mul pole probleeme, ma lihtsalt ei pane neid Facebooki" (Newman et al. 2011) . Teisisõnu, kuigi mõned suured andmeallikad on mittereaktiivsed, ei pruugi nad alati olla sotsiaalse soovi kõrvalekaldega, kuna inimesed soovivad ennast kõige paremini esindada. Pealegi, nagu ma peatükis kirjeldan hiljem, mõjutavad suuri andmeallikaid jäljendatud käitumine mõnikord platvormi omanike eesmärke, probleemi, mida kutsun algoritmiliselt häirivaks . Lõpuks, ehkki mittesobivus on uurimistöö jaoks kasulik, jälgib inimeste käitumine ilma nende nõusolekuta ja teadlikkuseta eetilisi probleeme, mida kirjeldan üksikasjalikumalt 6. peatükis.
Kaks omadust, mida ma äsja kirjeldasin - suur, pidevalt ja mittereageeriv - on üldiselt, kuid mitte alati, sotsiaalsete uuringute jaoks kasulikud. Järgmisena pöördun 7 suurte andmeallikate seas - mittetäielik, ligipääsmatu, mitte esindav, triivitav, algoritmiliselt segane, määrdunud ja tundlik -, mis üldiselt, kuid mitte alati, tekitavad uurimisprobleeme.