El comportament en sistemes de dades grans no és natural; està impulsat pels objectius d'enginyeria dels sistemes.
Encara que moltes fonts de dades grans no són reactives perquè la gent no sap que s'estan registrant les seves dades (secció 2.3.3), els investigadors no haurien de considerar que els comportaments en aquests sistemes en línia siguin "naturals". En realitat, els sistemes digitals que registren el comportament són molt dissenyat per induir comportaments específics com ara fer clic a anuncis o publicar contingut. Les formes en què els objectius dels dissenyadors de sistemes poden introduir patrons en dades s'anomena confusió algorítmica . La confusió algorísmica és relativament desconeguda per als científics socials, però és una gran preocupació entre els científics amb dades acurats. I, a diferència d'alguns dels altres problemes amb les petjades digitals, el confusió algorítmica és en gran part invisible.
Un exemple relativament senzill de confusió algorítmica és el fet que a Facebook hi ha una quantitat anòmala d'usuaris amb aproximadament 20 amics, tal com va ser descobert per Johan Ugander i col·legues (2011) . Els científics que analitzen aquestes dades sense comprendre la manera en què funciona Facebook poden, sens dubte, generar moltes històries sobre com 20 són un tipus de número social màgic. Afortunadament, Uganda i els seus col · legues van tenir una comprensió substancial del procés que va generar les dades, i sabien que Facebook va animar a les persones amb poques connexions a Facebook a fer més amics fins que arribessin a 20 amics. Encara que Uganda i els seus col·legues no diuen això en el seu paper, aquesta política va ser presumiblement creada per Facebook per animar els nous usuaris a ser més actius. Sense saber l'existència d'aquesta política, però, és fàcil extreure la conclusió incorrecta de les dades. En altres paraules, la sorprenent quantitat de persones amb uns 20 amics ens parla més sobre Facebook que sobre el comportament humà.
En aquest exemple anterior, la confusió algorítmica produeix un resultat peculiar que un investigador atent detecta i investiga encara més. Tanmateix, hi ha una versió encara més complicada de confusió algorítmica que es produeix quan els dissenyadors dels sistemes en línia són conscients de les teories socials i, després, fan aquestes teories en el funcionament dels seus sistemes. Els científics socials anomenen aquesta performativitat : quan una teoria canvia el món de tal manera que el món s'ajusti més a la teoria. En el cas de confusió algorítmica performativa, la naturalesa confusa de les dades és molt difícil de detectar.
Un exemple d'un patró creat per la performativitat és la transitivitat en xarxes socials en línia. A la dècada de 1970 i 1980, els investigadors van trobar repetidament que si sou amics amb Alice i Bob, llavors Alice i Bob són més propensos a ser amics entre ells que si fossin dues persones escollides aleatòriament. Aquest mateix patró es va trobar al gràfic social de Facebook (Ugander et al. 2011) . Per tant, es pot concloure que els patrons d'amistat a Facebook replicen patrons d'amistats fora de línia, almenys en termes de transitivitat. No obstant això, la magnitud de la transitivitat en el gràfic social de Facebook està parcialment impulsada per confusió algorítmica. És a dir, els científics de dades de Facebook sabien sobre la investigació empírica i teòrica sobre la transitivitat i després es van fer servir com funciona Facebook. Facebook té una funció "La gent que podeu saber" que suggereix nous amics i, d'alguna manera, Facebook decideix qui us suggerim és la transitivitat. És a dir, Facebook és més probable que us suggeriu que us feu amics amb els amics dels vostres amics. Aquesta característica té per tant l'efecte d'augmentar la transitivitat en el gràfic social de Facebook; en altres paraules, la teoria de la transitivitat (Zignani et al. 2014; Healy 2015) el món en línia amb les prediccions de la teoria (Zignani et al. 2014; Healy 2015) . D'aquesta manera, quan apareixen grans fonts de dades per reproduir prediccions de la teoria social, hem d'assegurar-nos que la pròpia teoria no estigui a punt de funcionar el sistema.
En comptes de pensar en grans fonts de dades com observar persones en un entorn natural, una metàfora més adequada és observar a la gent en un casino. Els casinos són entorns altament dissenyats per induir certs comportaments, i un investigador mai no esperaria que el comportament en un casino proporcioni una finestra sense límits al comportament humà. Per descomptat, podeu aprendre alguna cosa sobre el comportament humà estudiant persones als casinos, però si ignorava el fet que les dades es creaven en un casino, podríeu treure algunes conclusions dolentes.
Malauradament, fer front a la confusió algorítmica és particularment difícil perquè moltes de les característiques dels sistemes en línia són propietàries, mal documentades i canvien constantment. Per exemple, com explicaré més endavant en aquest capítol, la confusió algorítmica va ser una possible explicació per al desglossament gradual de Google Flu Trends (secció 2.4.2), però aquesta afirmació no era difícil d'avaluar perquè el funcionament intern de l'algoritme de cerca de Google és propietari La naturalesa dinàmica de la confusió algorítmica és una forma de deriva del sistema. La confusió algorísmica significa que hem de tenir cura amb qualsevol reclamació sobre el comportament humà que provingui d'un únic sistema digital, per molt gran.