Vedenje v velikih sistemih podatkov ni naravno; ga vodijo inženirski cilji sistemov.
Čeprav mnogi veliki viri podatkov niso aktivni, ker ljudje ne vedo, da se njihovi podatki beležijo (poglavje 2.3.3), raziskovalci ne bi smeli upoštevati, da se vedenje v teh spletnih sistemih "naravno pojavlja". V resnici so digitalni sistemi, visoko inženirstvo, ki spodbuja določena vedenja, kot so kliki na oglase ali objavljanje vsebine. Načini, da lahko cilji oblikovalcev sistema uvedejo vzorce v podatke, se imenujejo algoritmični zmeda . Algoritemsko zbadanje je razmeroma neznanemu za socialne znanstvenike, vendar je to med glavnimi skrbmi skrbnih znanstvenikov. In za razliko od nekaterih drugih težav z digitalnimi sledmi je algoritemsko zbadanje večinoma nevidno.
Sorazmerno preprost primer algoritmičnega zmede je dejstvo, da na Facebooku obstaja nepravilno veliko število uporabnikov s približno 20 prijatelji, kot je odkril Johan Ugander in sodelavci (2011) . Znanstveniki, ki analizirajo te podatke brez kakršnega koli razumevanja, kako deluje Facebook, bi lahko nedvomno ustvarjali veliko zgodb o tem, kako je 20 nekakšna čarobna družbena številka. Na srečo sta Ugander in njegovi kolegi imeli znatno razumevanje procesa, ki je ustvaril podatke, in vedeli, da je Facebook spodbudil ljudi z nekaj povezavami na Facebooku, da bi ustvarili več prijateljev, dokler ne bi dosegli 20 prijateljev. Čeprav Ugander in njegovi kolegi v svojem članku tega ne pravijo, je to politiko predvidoma ustvaril Facebook, da bi spodbudili nove uporabnike, da postanejo bolj aktivni. Vendar, ne da bi vedeli o obstoju te politike, je lažje sklepati iz podatkov. Z drugimi besedami, presenetljivo veliko število ljudi s približno 20 prijatelji nam pove več o Facebooku kot o človekovem vedenju.
V tem prejšnjem primeru je algoritemsko zbadanje prineslo čuden rezultat, ki bi ga skrbni raziskovalec lahko odkril in raziskal še naprej. Vendar pa obstaja še bolj zahtevna različica algoritmičnega zmede, ki se zgodi, ko se oblikovalci spletnih sistemov zavedajo družbenih teorij in nato te teorije izperejo v delovanju svojih sistemov. Socialistični znanstveniki to performativnost imenujejo: ko teorija spremeni svet na takšen način, da bo svet bolj usklajen s teorijo. V primeru performativnega algoritemskega zbiranja podatkov je zelo težko zaznati zmedeno naravo podatkov.
Primer vzorca, ki ga ustvarja performativnost, je tranzitnost v spletnih socialnih omrežjih. V sedemdesetih in osemdesetih letih 20. stoletja so raziskovalci večkrat ugotovili, da če sta z Alico in Bobom prijatelji, potem sta Alice in Bob verjetneje, da sta med seboj prijateljska, kot če sta bila dva naključno izbrana ljudstva. Ta isti vzorec smo našli v socialnem grafu na Facebooku (Ugander et al. 2011) . Tako lahko sklepamo, da vzorci prijateljstva na Facebooku ponovijo vzorce brezžičnih prijateljstev, vsaj v smislu tranzitnosti. Vendar pa je obseg tranzitnosti v socialnem grafikonu Facebook delno posledica algoritmičnega zmede. To pomeni, da so znanstveniki na Facebooku vedeli za empirično in teoretično raziskavo o tranzitnosti, nato pa so jo pekli na način, kako deluje Facebook. Facebook ima funkcijo »Ljudje, ki jih morda poznate«, ki predlaga nove prijatelje, in en način, na katerega se Facebook odloči, kdo vam bo predlagal, je tranzitnost. To pomeni, da je bolj verjetno, da bo Facebook predlagal, da postanete prijatelji s prijatelji svojih prijateljev. Ta funkcija tako vpliva na povečanje tranzitnosti v socialnem grafikonu Facebook; z drugimi besedami, teorija tranzitnosti prinaša svet v skladu s predvidevanji teorije (Zignani et al. 2014; Healy 2015) . Tako, ko se zdi, da veliki viri podatkov ponavljajo napovedi družbene teorije, moramo biti prepričani, da teorija sama ni bila pekoča, kako je sistem deloval.
Namesto da bi razmišljali o velikih virih podatkov kot opazovanje ljudi v naravnem okolju, bolj apt metafora opazuje ljudi v casinoju. Igralnice so visoko zasnovana okolja, ki so namenjena spodbujanju določenih vedenj, raziskovalec pa nikoli ne bi pričakoval vedenja v igralnici, da bi zagotovil neovirano okno v človeško vedenje. Seveda se lahko naučite o človeškem vedenju s preučevanjem ljudi v igralnicah, vendar če ste ignorirali dejstvo, da so bili podatki ustvarjeni v igralnici, bi lahko prišli do nekaj slabih zaključkov.
Na žalost je obravnavanje algoritmičnih zmede še posebej težavno, ker so številne značilnosti spletnih sistemov lastniške, slabo dokumentirane in se nenehno spreminjajo. Na primer, kot sem razložil kasneje v tem poglavju, je bilo mogoče algoritemsko zmedo eno od možnih razlag za postopno razčlenitev Googlovih trendov gripe (točka 2.4.2), vendar je bilo to trditev težko oceniti, ker so notranje delovanje Googlovega iskalnega algoritma lastniško. Dinamična narava algoritmičnega zmede je ena oblika sistemskega pomika. Algoritemsko zbadanje pomeni, da moramo biti previdni glede vsake trditve glede človeškega vedenja, ki izhaja iz enotnega digitalnega sistema, ne glede na to, kako velik.