Mezurado en grandaj datumaj fontoj multe malpli verŝajne ŝanĝos konduton.
Unu defio de socia esplorado estas, ke homoj povas ŝanĝi sian konduton kiam ili scias, ke ili estas observataj de esploristoj. Sociaj sciencistoj ĝenerale nomas ĉi tiun reaktivecon (Webb et al. 1966) . Ekzemple, homoj povas esti pli sindona en laboratoriaj studoj ol kampaj studoj, ĉar en la antaŭa ili estas tre konsciaj ke ili estas observataj (Levitt and List 2007a) . Unu aspekto de grandaj datumoj, kiujn multaj esploristoj trovas promesplenaj, estas, ke partoprenantoj ĝenerale ne konscias, ke iliaj datumoj estas kaptitaj aŭ ili tiel kutimis al ĉi tiu datuma kolekto, ke ĝi jam ne ŝanĝas sian konduton. Ĉar partoprenantoj estas neaktivaj , do multaj fontoj de grandaj datumoj povas esti uzataj por studi konduton, kiu ne estis antaŭvidita al preciza mezuro antaŭe. Ekzemple, Stephens-Davidowitz (2014) uzis la prevalencon de rasismaj terminoj en serĉaj serĉoj por mezuri rasan animon en malsamaj regionoj de Usono. La nereactiva kaj granda (vidu sekcion 2.3.1) naturo de la serĉaj datumoj ebligis mezurojn, kiuj malfacile uzus aliajn metodojn, kiel enketoj.
Nereactiveco, tamen, ne certigas, ke ĉi tiuj datumoj estas iel rekta spegulbildo de la konduto aŭ sintenoj de homoj. Ekzemple, kiel unu respondanto en intervjuo-studo diris, "Ne estas, ke mi ne havas problemojn, mi simple ne metas ilin sur Facebook" (Newman et al. 2011) . Alivorte, kvankam iuj grandaj datumaj fontoj estas neaktivaj, ili ne ĉiam estas liberaj de socia deziro, kaj la tendenco de homoj volas voli prezenti sin laŭ la plej bona maniero. Plie, kiel mi priskribos poste en la ĉapitro, la konduto kaptita en grandaj datumaj fontoj estas foje influita de la celoj de platformoj, temo, kiun mi nomos algoritma konflikto . Fine, kvankam nereactiveco estas avantaĝa por esplorado, sekvado de homaj kondutoj sen konsento kaj konscio levas etikajn zorgojn, kiujn mi priskribos detale en ĉapitro 6.
La tri nemoveblaĵoj, kiujn mi ĵus priskribis, grandaj, ĉiam-ne kaj neactivaj - ĝenerale, sed ne ĉiam, estas avantaĝaj por socia esplorado. Poste mi turnos sin al la sep posedaĵoj de grandaj datumaj fontoj - nekompletaj, nealireblaj, ne-reprezentaj, drifantaj, algoritme konfuzitaj, malpuraj kaj sentemaj - ke ĝenerale, sed ne ĉiam, kreas problemojn por esplorado.