Comportamentul în sistemele mari de date nu este natural; este condus de obiectivele de inginerie ale sistemelor.
Deși multe surse de date mari nu sunt reactive deoarece oamenii nu știu că datele lor sunt înregistrate (secțiunea 2.3.3), cercetătorii nu ar trebui să considere comportamentul în aceste sisteme online "natural". În realitate, sistemele digitale care înregistrează comportamentul sunt foarte ingineria pentru a induce comportamente specifice cum ar fi clicuri pe anunțuri sau postarea de conținut. Modurile în care obiectivele proiectanților de sisteme pot introduce modele în date se numește confuzie algoritmică . Confuzia algoritmică este relativ necunoscută oamenilor de știință socială, dar este o preocupare majoră în rândul oamenilor de știință cu o atenție deosebită. Și, spre deosebire de unele dintre celelalte probleme cu urme digitale, confuzia algoritmică este în mare parte invizibilă.
Un exemplu relativ simplu de confundare algoritmică este faptul că pe Facebook există un număr anormal de mare de utilizatori cu aproximativ 20 de prieteni, așa cum a descoperit Johan Ugander și colegii (2011) . Oamenii de știință care analizează aceste date fără să înțeleagă cum funcționează Facebook ar putea genera fără îndoială multe povestiri despre cum 20 este un fel de număr social magic. Din fericire, Ugander și colegii săi au avut o înțelegere substanțială a procesului care a generat datele și au știut că Facebook a încurajat persoanele cu câteva conexiuni pe Facebook să-și facă mai mulți prieteni până când au ajuns la 20 de prieteni. Deși Ugander și colegii nu spun acest lucru în lucrarea lor, această politică a fost probabil creată de Facebook pentru a încuraja noi utilizatori să devină mai activi. Fără a ști însă despre existența acestei politici, este ușor să tragem din datele date o concluzie greșită. Cu alte cuvinte, numărul surprinzător de mare de persoane cu aproximativ 20 de prieteni ne spune mai multe despre Facebook decât despre comportamentul uman.
În acest exemplu anterior, confuzia algoritmică a produs un rezultat ciudat că un cercetător atent ar putea detecta și investiga mai departe. Cu toate acestea, există o versiune mai complicată a confundării algoritmice care apare atunci când designerii sistemelor online sunt conștienți de teorii sociale și apoi coace aceste teorii în funcționarea sistemelor lor. Cercetătorii sociali numesc această performanță : atunci când o teorie schimbă lumea într-un asemenea mod încât să aducă lumea mai în concordanță cu teoria. În cazul confundării algoritmice performative, natura confuză a datelor este foarte dificil de detectat.
Un exemplu al unui model creat de performativitate este tranzitivitatea în rețelele sociale online. În anii 1970 și 1980, cercetătorii au descoperit în repetate rânduri că, dacă sunteți prieteni atât cu Alice, cât și cu Bob, atunci Alice și Bob au mai multe șanse să fie prieteni între ei decât dacă erau doi oameni aleși la întâmplare. Acest model a fost găsit în graficul social pe Facebook (Ugander et al. 2011) . Astfel, s-ar putea concluziona că modelele de prietenie pe Facebook replică modele de prietenii offline, cel puțin în termeni de tranzitivitate. Cu toate acestea, magnitudinea tranzitivității în graficul social Facebook este parțial determinată de confundarea algoritmică. Cu alte cuvinte, oamenii de știință de la Facebook știau despre cercetarea empirică și teoretică despre tranziție și apoi au făcut-o în modul în care funcționează Facebook. Facebook are o caracteristică "Persoanele pe care le poți ști", care sugerează noi prieteni, iar modul în care Facebook decide cine să vă sugereze este tranzitivitatea. Asta este, Facebook este mai probabil să sugereze că tu devii prieten cu prietenii prietenilor tăi. Această caracteristică are ca efect creșterea tranzitivității în graficul social Facebook; cu alte cuvinte, teoria tranzitivității aduce lumea în concordanță cu predicțiile teoriei (Zignani et al. 2014; Healy 2015) . Astfel, când sursele mari de date par să reproducă predicțiile teoriei sociale, trebuie să fim siguri că teoria însăși nu a fost cuprinsă în felul în care funcționa sistemul.
În loc să se gândească la mari surse de date ca observând oamenii într-un cadru natural, o metaforă mai apt observă oamenii într-un cazinou. Cazinourile sunt medii cu un nivel ridicat de inginerie, concepute pentru a induce anumite comportamente, iar un cercetător nu se așteaptă ca comportamentul într-un cazinou să ofere o fereastră liberă în comportamentul uman. Desigur, ați putea învăța ceva despre comportamentul uman, studiind oamenii în cazinouri, dar dacă ați ignorat faptul că datele au fost create într-un cazinou, ați putea trage concluzii greșite.
Din nefericire, problema confuziei algoritmice este deosebit de dificilă, deoarece multe caracteristici ale sistemelor online sunt proprietate, prost documentate și se schimbă în mod constant. De exemplu, după cum vom explica mai târziu în acest capitol, confuzia algoritmică a fost o posibilă explicație pentru defalcarea treptată a Google Flu Trends (secțiunea 2.4.2), dar această afirmație a fost greu de evaluat deoarece funcționarea internă a algoritmului de căutare Google este proprietate. Natura dinamică a confundării algoritmice este o formă de derivă a sistemului. Confuzia algoritmică înseamnă că trebuie să fim precauți cu privire la orice pretenție privind comportamentul uman care provine dintr-un singur sistem digital, indiferent cât de mare este.