Suurte andmesüsteemide käitumine ei ole loomulik; seda juhivad süsteemide tehnilised eesmärgid.
Kuigi paljud suured andmeallikad ei reageeri, kuna inimesed ei ole teadlikud nende andmete registreerimisest (punkt 2.3.3), ei tohiks teadlased lugeda sellistesse veebisüsteemidesse käitumist "looduslikult esinevateks". Reaalselt on digitaalsüsteemid, mis salvestavad käitumist mis on spetsiaalselt välja töötatud spetsiifiliste käitumisviiside tekitamiseks, nagu näiteks reklaamide klikkimine või sisu postitamine. Süsteemide disainerite eesmärgid, mis võivad sisestada mustreid andmetele, nimetatakse algoritmiliseks segavaks . Algorithmiline segadus on suhteliselt teadmata sotsiaalteadlastele, kuid see on hoolikas andmete teadlane. Ja erinevalt mõnest teisest digitaalsete jälgedega seotud probleemidest on algoritmiline segane suures osas nähtamatu.
Suhteliselt lihtne näide algoritmilistest segadustest on asjaolu, et Facebookis on Johann Uganderi ja tema kolleegide (2011) avastanud umbes 20 sõpraga kasutajatest anomaalselt suurt arvu kasutajaid. Teadlased, kes neid andmeid analüüsivad ilma arusaamatusest, kuidas Facebook toimib, võib kahtlemata luua palju lugusid selle kohta, kuidas 20 on mingi maagiline sotsiaalne number. Õnneks oli Uganderil ja tema kolleegidel põhjalikult arusaam protsessist, mis andis andmeid, ja nad teadsid, et Facebook julgustas inimesi, kellel pole Facebookiga ühtegi ühendust, et luua rohkem sõpru, kuni nad jõudsid 20 sõpra. Kuigi Ugander ja tema kolleegid seda oma töös ei ütle, tegi see Facebook tõenäoliselt selle, et uusi kasutajaid aktiivsemaks muuta. Kuid selle poliitika olemasolust teadmata on andmeid lihtsalt vale järeldus. Teisisõnu ütleb üllatavalt suur hulk inimesi umbes 20 sõpraga Facebookis rohkem infot kui inimese käitumist.
Selles varasemas näites tekitas algoritmiline segadus kummitusliku tulemuse, mida hoolikas teadlane tuvastab ja uurib veelgi. Samas on algoritmilise segadusega veelgi keerulisem versioon, mis ilmneb siis, kui veebisüsteemide disainerid on teadlikud sotsiaalsetest teooriatest ja küpseta need teooriad oma süsteemide töösse. Sotsiaalteadlased nimetavad seda performatiivsust : kui teooria muudab maailma selliselt, et see muudab maailma paremini teooriaks. Performatiivse algoritmilise segi korral on andmete hägustatus väga raske tuvastada.
Üheks nägemuseks mudeleid, mille on tekitanud täitevvõime, on interaktiivsed sotsiaalsed võrgustikud. 1970ndatel ja 1980ndatel leidsid teadlased korduvalt, et kui te olete nii Alise kui ka Bobi sõpradega, siis on Alice ja Bob tõenäolisemalt üksteisega sõbrad, kui nad oleksid kaks juhuslikult valitud inimest. Sama muster leiti ka Facebookis asuvas sotsiaalses graafikus (Ugander et al. 2011) . Seega võiks järeldada, et Facebooki sõpruse mudelid reageerivad offline-sõprussidemeid, vähemalt transitiivsuse mõttes. Kuid Facebooki sotsiaalse graafiku läbivuse suurus on osaliselt tingitud algoritmilisest segadusest. See tähendab, et Facebooki andmeteadlased teadsid transitiivsest empiirilisest ja teoreetilistest teadusuuringutest ja seejärel küpsetasid seda Facebooki töös. Facebookil on inimesi, keda te peate teadma, mis pakub uusi sõpru ja üks viis, kuidas Facebook otsustab, kes teile soovitada, on transitiivsus. See tähendab, et Facebook näitab tõenäolisemalt, et saate sõpradega sõpradega sõpru. Seega aitab see funktsioon Facebooki sotsiaalse graafiku läbipaistvust suurendada; teisisõnu, transitiivsuse teooria toob maailma kaasa teooria prognoosidele (Zignani et al. 2014; Healy 2015) . Seega, kui suured andmeallikad paistavad olevat reprodutseerivad sotsiaalse teooria ennustusi, peame olema kindlad, et teooriat ise ei peetud selle süsteemi töösse.
Selle asemel, et arvestada suurte andmeallikatega loodusringkonda kuuluvate inimeste jälgimisega, jälgib kasiinos inimesi paremini metafoor. Kasiinos on kõrgelt kvalifitseeritud keskkond, mis on välja töötatud teatud käitumiste tekitamiseks, ja teadlane ei peaks kunagi käitumist kasiinos pakkuma inimeste käitumiseks piiramatut akent. Loomulikult võite õppida inimesi kasiinodes midagi inimkäitumise kohta, kuid kui te ignoreerisite kasiinodes olevate andmete loomist, võite teha mõned halvad järeldused.
Kahjuks on algorithmilise segajaga tegelemine eriti keeruline, kuna paljud veebisüsteemide omadused on varalised, halvasti dokumenteeritud ja pidevalt muutuvad. Näiteks, nagu ma selgitan hiljem selles peatükis, oli algoritmiline segane üks Google Glue Trends järk-järgulise jaotuse (punkt 2.4.2) seletus, kuid seda nõuet oli raske hinnata, sest Google'i otsingualgoritmi sisemine töö on omandiõigusega. Algoritmilise segavuse dünaamiline olemus on üks süsteemide triivi vorm. Algoritmiline segadus tähendab, et peaksime olema ettevaatlikud mis tahes väidetest inimkäitumise kohta, mis pärineb ühest digitaalsüsteemist, ükskõik kui suur.