Il comportamento nei sistemi di big data non è naturale; è guidato dagli obiettivi di ingegneria dei sistemi.
Sebbene molte fonti di dati di grandi dimensioni siano non reattive perché le persone non sono consapevoli della registrazione dei loro dati (sezione 2.3.3), i ricercatori non dovrebbero considerare il comportamento in questi sistemi online "naturale". In realtà, i sistemi digitali che registrano il comportamento sono altamente ingegnerizzato per indurre comportamenti specifici come fare clic sugli annunci o pubblicare contenuti. Il modo in cui gli obiettivi dei progettisti di sistemi possono introdurre schemi in dati è chiamato confusione algoritmica . La confusione algoritmica è relativamente sconosciuta agli scienziati sociali, ma è una delle maggiori preoccupazioni degli scienziati attenti ai dati. E, a differenza di altri problemi con le tracce digitali, il confondimento algoritmico è in gran parte invisibile.
Un esempio relativamente semplice di confusione algoritmica è il fatto che su Facebook ci sono un numero anomalo di utenti con circa 20 amici, come è stato scoperto da Johan Ugander e colleghi (2011) . Gli scienziati che analizzano questi dati senza capire come funziona Facebook potrebbero senza dubbio generare molte storie su come 20 sia una sorta di numero sociale magico. Fortunatamente, Ugander ei suoi colleghi avevano una conoscenza approfondita del processo che ha generato i dati e sapevano che Facebook incoraggiava le persone con poche connessioni su Facebook a fare più amici fino a quando non raggiunsero 20 amici. Sebbene Ugander e colleghi non lo dicano nel loro documento, presumibilmente questa politica è stata creata da Facebook per incoraggiare i nuovi utenti a diventare più attivi. Senza conoscere l'esistenza di questa politica, tuttavia, è facile trarre conclusioni errate dai dati. In altre parole, il numero sorprendentemente alto di persone con circa 20 amici ci dice di più su Facebook che sul comportamento umano.
In questo esempio precedente, la confusione algoritmica ha prodotto un risultato bizzarro che un ricercatore attento potrebbe rilevare e indagare ulteriormente. Tuttavia, esiste una versione ancora più complicata del confondimento algoritmico che si verifica quando i progettisti di sistemi online sono consapevoli delle teorie sociali e quindi infornano queste teorie nel funzionamento dei loro sistemi. Gli scienziati sociali chiamano questa performatività : quando una teoria cambia il mondo in modo tale da portare il mondo più in linea con la teoria. Nel caso di confusione algoritmica performativa, la natura confusa dei dati è molto difficile da rilevare.
Un esempio di un modello creato dalla performatività è la transitività nei social network online. Negli anni '70 e '80, i ricercatori hanno ripetutamente scoperto che se sei amico sia di Alice che di Bob, allora Alice e Bob hanno più probabilità di essere amici tra loro che se fossero due persone scelte a caso. Questo stesso modello è stato trovato nel grafico sociale su Facebook (Ugander et al. 2011) . Quindi, si potrebbe concludere che i modelli di amicizia su Facebook riproducono modelli di amicizie offline, almeno in termini di transitività. Tuttavia, l'entità della transitività nel social graph di Facebook è parzialmente guidata da confusione algoritmica. Cioè, i data scientist di Facebook conoscevano la ricerca empirica e teorica sulla transitività e poi l'hanno inciso su come funziona Facebook. Facebook ha una funzione "People You May Know" che suggerisce nuovi amici e un modo in cui Facebook decide chi suggerirti è transitività. Cioè, è più probabile che Facebook ti suggerisca di diventare amico degli amici dei tuoi amici. Questa caratteristica ha quindi l'effetto di aumentare la transitività nel grafico sociale di Facebook; in altre parole, la teoria della transitività avvicina il mondo alle previsioni della teoria (Zignani et al. 2014; Healy 2015) . Pertanto, quando le grandi fonti di dati sembrano riprodurre le previsioni della teoria sociale, dobbiamo essere sicuri che la teoria stessa non sia incentrata sul modo in cui il sistema ha funzionato.
Piuttosto che pensare a grandi fonti di dati come osservare le persone in un ambiente naturale, una metafora più appropriata è osservare le persone in un casinò. I casinò sono ambienti altamente ingegnerizzati progettati per indurre determinati comportamenti, e un ricercatore non si aspetterebbe mai un comportamento in un casinò per fornire una finestra aperta al comportamento umano. Certo, potresti imparare qualcosa sul comportamento umano studiando le persone nei casinò, ma se hai ignorato il fatto che i dati sono stati creati in un casinò, potresti trarre delle conclusioni sbagliate.
Sfortunatamente, affrontare il confondimento algoritmico è particolarmente difficile perché molte caratteristiche dei sistemi online sono proprietarie, scarsamente documentate e in continua evoluzione. Ad esempio, come spiegherò più avanti in questo capitolo, confusione algoritmica è stata una possibile spiegazione per la rottura graduale di Google Trend influenzali (sezione 2.4.2), ma questa affermazione è stata difficile da valutare perché i meccanismi interni dell'algoritmo di ricerca di Google sono proprietaria. La natura dinamica del confondimento algoritmico è una forma di deriva del sistema. La confusione algoritmica significa che dovremmo essere cauti riguardo a qualsiasi affermazione riguardante il comportamento umano che proviene da un singolo sistema digitale, non importa quanto grande.