2.3.2.5 algoritmicamente confuso

Comportamento nei dati trovato non è naturale, è guidato dagli obiettivi di ingegneria dei sistemi.

Anche se molte fonti di dati disponibili sono non reattivi, perché le persone non sono consapevoli dei loro dati vengono registrati (sezione 2.3.1.3), i ricercatori non dovrebbe prendere in considerazione il comportamento di questi sistemi online di essere "naturalmente" o "puro". In realtà, la sistemi digitali che il comportamento di registrazione sono altamente ingegnerizzati per indurre comportamenti specifici come cliccare su annunci o la pubblicazione di contenuti. I modi in cui gli obiettivi di progettisti di sistemi possono introdurre modelli in dati è chiamato confusione algoritmico. confondimento algoritmico è relativamente sconosciuto agli scienziati sociali, ma è una delle maggiori preoccupazioni tra gli attenti ricercatori di dati. E, a differenza di alcuni degli altri problemi con tracce digitali, confusione algoritmica è in gran parte invisibile.

Un relativamente semplice esempio di confusione algoritmica è il fatto che su Facebook ci sono un numero anomalo elevato di utenti con circa 20 amici (Ugander et al. 2011) . Gli scienziati analizzando con questi dati, senza alcuna comprensione di come funziona Facebook potrebbe senza dubbio generare molte storie su come 20 è una sorta di numero magico sociali. Tuttavia, Ugander ei suoi colleghi avevano una comprensione sostanziale del processo che ha generato i dati, e sapevano che Facebook ha incoraggiato le persone con poche connessioni su Facebook per rendere più amici fino a raggiungere 20 amici. Anche se Ugander e colleghi non dicono questo nel documento, questa politica è stato probabilmente creato da Facebook al fine di incoraggiare i nuovi utenti a diventare più attivi. Senza conoscere l'esistenza di questa politica, tuttavia, è facile trarre conclusioni sbagliate dai dati. In altre parole, il numero sorprendentemente alto di persone con circa 20 amici ci dice di più su Facebook che il comportamento umano.

Più perniciosa di questo esempio precedente, in cui confusione algoritmico ha prodotto un risultato eccentrico che una attenta ricercatori potrebbero indagare ulteriormente, vi è una versione ancora più difficile di confondimento algoritmica che si verifica quando i progettisti di sistemi online sono a conoscenza di teorie sociali e poi cuocere queste teorie nel lavoro dei loro sistemi. Sociologi chiamano questo performatività: quando teorie cambiano il mondo in modo da portare il mondo più in linea con la teoria. Nei casi di confondimento performativa algoritmica, la natura maledetto dei dati è probabile invisibile.

Un esempio di un modello creato da performatività è transitività nelle reti sociali online. Negli anni 1970 e 1980, i ricercatori hanno scoperto che più volte se si è amici con Alice e siete amici con Bob, poi Bob e Alice hanno maggiori probabilità di essere amici con l'altro di due persone scelte a caso. E, questo stesso modello è stato trovato nel grafico sociale su Facebook (Ugander et al. 2011) . Così, si potrebbe concludere che i modelli di amicizia su Facebook replicano i modelli di amicizie non in linea, almeno in termini di transitività. Tuttavia, l'entità della transitività nel grafico sociale di Facebook è in parte guidato da fattori confondenti algoritmico. Cioè, dati gli scienziati Facebook sapevano della ricerca empirica e teorica sulla transitività e poi cotto in come funziona Facebook. Facebook ha un "persone che possono sapere", caratteristica che suggerisce nuovi amici, e in un modo che Facebook decide chi far pensare a voi è transitività. Cioè, Facebook è più probabile che suggerire che si diventa amici con gli amici dei tuoi amici. Questa caratteristica ha quindi l'effetto di aumentare transitività nel grafico sociale di Facebook; In altre parole, la teoria della transitività porta il mondo in linea con le previsioni della teoria (Healy 2015) . Così, quando le grandi fonti di dati sembra di riprodurre le previsioni della teoria sociale, dobbiamo essere sicuri che la teoria stessa non veniva cotto nel modo in cui il sistema ha funzionato.

Piuttosto che pensare delle grandi fonti di dati come osservando la gente in un ambiente naturale, una metafora più adatto sta osservando la gente in un casinò. I casinò sono altamente ambienti progettati per indurre certi comportamenti studiati, e un ricercatori avrebbero mai aspettare che il comportamento in un casinò fornirebbe una finestra senza ostacoli in comportamento umano. Naturalmente, potremmo imparare qualcosa sul comportamento studiare le persone umane nei casinò, anzi un casinò potrebbe essere un ambiente ideale per studiare la relazione tra consumo di alcol e rischio di preferenze, ma se abbiamo ignorato che i dati sono stati in fase di creazione in un casinò potremmo trarre alcune conclusioni sbagliate.

Purtroppo, si occupano di confondimento algoritmico è particolarmente difficile perché molte caratteristiche dei sistemi online sono proprietari, scarsamente documentata, e in continua evoluzione. Ad esempio, come spiegherò più avanti in questo capitolo, confondenti algoritmico è una possibile spiegazione per la graduale ripartizione di Google Trend influenzali (Sezione 2.4.2), ma questa affermazione è difficile da valutare perché il funzionamento interno di ricerca di Google algoritmo sono proprietari. La natura dinamica di confondimento algoritmico è una forma di deriva del sistema. confondimento algoritmico significa che dovremmo essere cauti nel caso di reclami per comportamento umano che viene da un unico sistema digitale, non importa quanto grande.