Chování ve velkých datových systémech není přirozené; to je řízeno inženýrskými cíli systémů.
Ačkoli mnoho velkých datových zdrojů je nereaktivní, protože lidé si nejsou vědomi, že se jejich data zaznamenávají (oddíl 2.3.3), výzkumníci by neměli považovat chování v těchto on-line systémech za "přirozeně se vyskytující". Ve skutečnosti jsou digitální systémy, které zaznamenávají chování, vysoce vyvinuta, aby vyvolala specifické chování, jako například kliknutí na reklamy nebo zveřejňování obsahu. Způsoby, jakými mohou cílové konstruktéři systému zavádět vzory do dat, se nazývají algoritmické zmatení . Algoritmické zmatení je poměrně neznámé společenským vědcům, ale je to velký problém mezi pečlivými vědci v oblasti dat. A na rozdíl od některých dalších problémů s digitálními stopami je algoritmické zmatení z velké části neviditelné.
Poměrně jednoduchým příkladem algoritmického zmatení je skutečnost, že na Facebooku je neobvykle vysoký počet uživatelů s přibližně 20 přáteli, jak objevil Johan Ugander a kolegové (2011) . Vědci, kteří analyzují tato data bez jakéhokoli pochopení toho, jak funguje Facebook, by nepochybně mohly generovat mnoho příběhů o tom, jak je 20 nějakým magickým sociálním číslem. Naštěstí měl Ugander a jeho kolegové podstatné pochopení procesu, který generoval data, a věděli, že společnost Facebook povzbuzovala lidi s malým napojením na Facebooku, aby získali více přátel, dokud nedosáhli 20 přátel. Přestože to Ugander a jeho kolegové ve svém příspěvku neřeknou, tato politika byla pravděpodobně vytvořena společností Facebook, aby povzbudila nové uživatele k tomu, aby se staly aktivnějšími. Bez znalosti o existenci této politiky je však z údajů snadné čerpat nesprávný závěr. Jinými slovy, překvapivě vysoký počet lidí s asi 20 kamarády nám říká víc o Facebooku než o lidském chování.
V tomto předchozím příkladu algoritmické zmatení vyvolalo zvláštní výsledek, který by pečlivý badatel mohl detekovat a dále vyšetřovat. Existuje však ještě mnohem trickější verze algoritmického zmatení, k němuž dochází, když si návrháři on-line systémů uvědomují sociální teorie a pak tyto teorie pečou do fungování svých systémů. Sociální vědci nazývají tuto výkonnost : když teorie mění svět takovým způsobem, že přináší svět více do souladu s teorií. V případě performativní algoritmické zmatení je velmi obtížné zjistit zmatenou povahu dat.
Jedním příkladem vzoru vytvořeného výkonností je přechodnost v online sociálních sítích. V sedmdesátých a osmdesátých letech vědci opakovaně zjistili, že pokud jste přátelé jak s Alice, tak s Bobem, pak Alice a Bob pravděpodobně budou mezi sebou přáteli, než kdyby byli dva náhodně vybraní lidé. Tento stejný model byl nalezen v sociálním grafu na Facebooku (Ugander et al. 2011) . Tak by se dalo vyvodit, že vzory přátelství na Facebooku replikují vzory offline přátelství, přinejmenším pokud jde o přechodnost. Nicméně velikost tranzitivity ve společenském grafu Facebooku je částečně řízena algoritmickým zmatením. To znamená, že vědci z vědy na Facebooku věděli o empirickém a teoretickém výzkumu o přechodnosti a poté je zapálili do toho, jak funguje Facebook. Facebook má funkci "Lidé, o kterých víte," které naznačují nové přátele, a jedním ze způsobů, jakým se Facebook rozhodne, kdo vám navrhne, je přechod. To znamená, že Facebook s větší pravděpodobností navrhne, abyste se stali přátelé s přáteli vašich přátel. Tato funkce tedy má za následek zvýšení přechodnosti ve společenském grafu Facebooku; Jinými slovy, teorie přechodnosti přináší svět do souladu s předpovědí teorie (Zignani et al. 2014; Healy 2015) . Když se tedy zdá, že velké zdroje dat reprodukují předpovědi sociální teorie, musíme si být jisti, že samotná teorie nebyla zapracována do toho, jak systém fungoval.
Spíše než přemýšlet o velkých zdrojích dat, jak pozorovat lidi v přírodním prostředí, více apt metafora pozoruje lidi v kasinu. Kasina jsou vysoce konstruované prostředí navržená tak, aby vyvolávala určité chování, a výzkumník by nikdy neočekával, že by chování v kasinu poskytovalo neomezené okno lidskému chování. Samozřejmě byste se mohli dozvědět něco o lidském chování při studiu lidí v kasinech, ale pokud byste ignorovali skutečnost, že data byla vytvořena v kasinu, můžete vyvodit některé špatné závěry.
Bohužel, řešení algoritmického zmatení je obzvláště obtížné, protože mnohé funkce on-line systémů jsou majetkové, špatně zdokumentované a neustále se mění. Například, jak budeme vysvětlovat později v této kapitole, bylo algoritmické zmatení jedním možným vysvětlením postupného rozpadu Google Chřipkových trendů (oddíl 2.4.2), ale toto tvrzení bylo těžké posoudit, protože vnitřní fungování vyhledávacího algoritmu Google je proprietární. Dynamická povaha algoritmického zmatení je jednou z forem system driftu. Algoritmické zmatení znamená, že bychom měli být opatrní ohledně jakéhokoli tvrzení týkajícího se lidského chování, které pochází z jediného digitálního systému, bez ohledu na to, jak velký je.