Chovanie vo veľkých dátových systémoch nie je prirodzené; je riadená inžinierskymi cieľmi systémov.
Hoci mnohé veľké zdroje údajov nie sú reaktívne, pretože ľudia si neuvedomujú, že ich údaje sa zaznamenávajú (časť 2.3.3), výskumníci by nemali považovať správanie v týchto on-line systémoch za "prirodzene sa vyskytujúce". V skutočnosti sú digitálne systémy, ktoré zaznamenávajú správanie vysoko vyvinuté na vyvolanie konkrétneho správania, ako napríklad klikanie na reklamy alebo uverejňovanie obsahu. Spôsoby, akými môžu ciele návrhárov systémov zavádzať vzory do dát, sa nazývajú algoritmické zmätok . Algoritmické spochybňovanie je pomerne neznáme sociálnym vedcom, ale je to veľký problém medzi starostlivými vedcami v oblasti údajov. A na rozdiel od niektorých iných problémov s digitálnymi stopami, algoritmické zmätok je do značnej miery neviditeľný.
Relatívne jednoduchým príkladom algoritmického zmätku je skutočnosť, že na Facebooku existuje nezvyčajne vysoký počet používateľov s približne 20 priateľmi, ako to objavil Johan Ugander a kolegovia (2011) . Vedci, ktorí analyzujú tieto údaje bez toho, aby pochopili, ako funguje Facebook, by bezpochyby mohli priniesť mnohé príbehy o tom, ako je 20 nejakým magickým sociálnym číslom. Našťastie Ugander a jeho kolegovia pochopili podstatu procesu, ktorý generoval dáta, a vedeli, že spoločnosť Facebook povzbudzuje ľudí, ktorí nemajú dostatok spojení na Facebooku, aby získali viac priateľov, až kým nedosiahnu 20 priateľov. Hoci to Ugander a kolegovia neuvádzajú vo svojom dokumente, táto politika bola pravdepodobne vytvorená spoločnosťou Facebook s cieľom povzbudiť nových používateľov, aby sa stali aktívnejšími. Bez toho, aby sme vedeli o existencii tejto politiky, je však z údajov možné ľahko vyvodiť nesprávny záver. Inými slovami, prekvapivo vysoký počet ľudí s približne 20 priateľmi nám hovorí viac o Facebooku ako o ľudskom správaní.
V tomto predchádzajúcom príklade algoritmické spochybnenie vytvorilo mimoriadny výsledok, ktorý môže pozorný výskumník zistiť a ďalej vyšetriť. Existuje však ešte zložitejšia verzia algoritmického zmätku, ku ktorému dochádza, keď dizajnéri on-line systémov vedia o sociálnych teóriách a potom tieto teórie upokoľujú do fungovania svojich systémov. Sociálni vedci nazývajú túto výkonnosť : keď teória mení svet takým spôsobom, že prináša svet viac do súladu s teóriou. V prípade performatívneho algoritmického zmätku je veľmi zložité zistiť zmarenú povahu údajov.
Jedným príkladom modelu vytvoreného výkonnosťou je prechodnosť v online sociálnych sieťach. V sedemdesiatych a osemdesiatych rokoch výskumníci opakovane zistili, že ak ste priatelia s Alicou aj s Bobom, Alice a Bob sú viac pravdepodobné, že budú medzi sebou priateľmi, než ak by boli dva náhodne vybraní ľudia. Tento rovnaký model sa našiel v sociálnom grafe na Facebooku (Ugander et al. 2011) . Možno teda dospieť k záveru, že vzory priateľstva na Facebooku replikujú vzory priateľských vzťahov v režime offline, aspoň pokiaľ ide o prechod. Avšak veľkosť prechodovosti v sociálnom grafe Facebooku je čiastočne riadená algoritmickým zmätok. To znamená, že vedci o údajoch na Facebooku vedeli o empirickom a teoretickom výskume o prežívaní a potom ich zapálili do toho, ako funguje Facebook. Facebook má funkciu "Ľudia, ktorých poznáš", čo naznačuje nových priateľov a jedným zo spôsobov, ktoré Facebook rozhodne, kto vám navrhne, je prechod. To znamená, že Facebook pravdepodobne navrhne, aby ste sa stali priateľmi s priateľmi vašich priateľov. Táto funkcia má teda za následok zvýšenie prechodnosti v sociálnom grafe spoločnosti Facebook; inými slovami, teória tranzitívnosti prináša svet do súladu s predpokladmi teórie (Zignani et al. 2014; Healy 2015) . Keď sa zdá, že veľké zdroje údajov reprodukujú predpovede sociálnej teórie, musíme si byť istí, že samotná teória nebola zapálená do toho, ako systém fungoval.
Namiesto myslenia veľkých zdrojov údajov, ako pozorovanie ľudí v prirodzenom prostredí, viac apt metafora pozoruje ľudí v kasíne. Kasíny sú vysoko navrhnuté prostredie navrhnuté na vyvolanie určitého správania a výskumník by nikdy neočakával, že správanie v kasíne prinesie neobmedzené okno do ľudského správania. Samozrejme, že sa môžete dozvedieť niečo o ľudskom správaní tým, že študujete ľudí v kasínach, ale ak ste ignorovali skutočnosť, že sa dáta vytvárajú v kasíne, môžete vyvodiť zlé závery.
Bohužiaľ, riešenie algoritmického zmätku je obzvlášť ťažké, pretože mnohé funkcie on-line systémov sú proprietárne, zle zdokumentované a neustále sa menia. Napríklad, ako budem vysvetliť neskôr v tejto kapitole, algoritmické spochybňovanie bolo jedným z možných vysvetlení postupného narušenia Chrípkových trendov Google (časť 2.4.2), ale toto tvrdenie bolo ťažké posúdiť, pretože vnútorné fungovanie vyhľadávacieho algoritmu Google je proprietárne. Dynamická povaha algoritmického zmätenia je jednou z foriem systémového driftu. Algoritmické zmätok znamená, že by sme mali byť obozretní v súvislosti s akýmikoľvek nárokmi týkajúcimi sa ľudského správania, ktoré pochádzajú z jedného digitálneho systému, bez ohľadu na to, aké veľké.