Deriva della popolazione, deriva dell'uso e deriva del sistema rendono difficile l'utilizzo di grandi fonti di dati per studiare le tendenze a lungo termine.
Uno dei grandi vantaggi di molte grandi fonti di dati è che raccolgono dati nel tempo. Gli scienziati sociali chiamano questo tipo di dati longitudinali dati temporali. E, naturalmente, i dati longitudinali sono molto importanti per lo studio del cambiamento. Al fine di misurare in modo affidabile il cambiamento, tuttavia, il sistema di misurazione stesso deve essere stabile. Nelle parole del sociologo Otis Dudley Duncan, "se vuoi misurare il cambiamento, non cambiare la misura" (Fischer 2011) .
Sfortunatamente, molti grandi sistemi di dati, in particolare i sistemi aziendali, stanno cambiando in continuazione, un processo che chiamerò deriva . In particolare, questi sistemi cambiano in tre modi principali: deriva della popolazione (cambiamento in chi li sta usando), deriva comportamentale (cambiamento nel modo in cui le persone li usano) e deriva del sistema (cambiamento nel sistema stesso). Le tre fonti di deriva indicano che qualsiasi modello in una grande fonte di dati potrebbe essere causato da un cambiamento importante nel mondo, o potrebbe essere causato da una qualche forma di deriva.
La prima fonte di deriva deriva dalla popolazione - è causata da cambiamenti in chi sta usando il sistema, e questi cambiamenti possono accadere sia in tempi brevi che lunghi. Ad esempio, durante le elezioni presidenziali americane del 2012, la percentuale di tweet sulla politica scritta da donne oscillava di giorno in giorno (Diaz et al. 2016) . Quindi, quello che potrebbe sembrare un cambiamento nell'umore del verso Twitter potrebbe in realtà essere solo un cambiamento in chi sta parlando in qualsiasi momento. Oltre a queste fluttuazioni a breve termine, c'è stata anche una tendenza a lungo termine di alcuni gruppi demografici che adottano e abbandonano Twitter.
Oltre ai cambiamenti in chi sta usando un sistema, ci sono anche cambiamenti nel modo in cui viene utilizzato il sistema, che io chiamo deriva comportamentale. Ad esempio, durante le proteste di Occupy Gezi del 2013 in Turchia, i manifestanti hanno cambiato il loro uso degli hashtag man mano che la protesta si è evoluta. Ecco come Zeynep Tufekci (2014) descritto la deriva comportamentale, che è stata in grado di rilevare perché stava osservando il comportamento su Twitter e di persona:
"Quello che era successo è che non appena la protesta è diventata la storia dominante, un gran numero di persone ... ha smesso di usare gli hashtag se non per attirare l'attenzione su un nuovo fenomeno ... Mentre le proteste continuavano, e persino intensificate, gli hashtag si attenuavano. Le interviste hanno rivelato due ragioni per questo. Innanzitutto, una volta che tutti conoscevano l'argomento, l'hashtag era allo stesso tempo superfluo e dispendioso sulla piattaforma Twitter a carattere limitato. In secondo luogo, gli hashtag erano visti solo come utili per attirare l'attenzione su un argomento particolare, non per parlarne. "
Così, i ricercatori che studiavano le proteste analizzando tweets con hashtag di protesta legate avrebbe un senso distorto di ciò che stava accadendo a causa di questa deriva comportamentale. Ad esempio, si potrebbe credere che la discussione della protesta è diminuito molto prima che in realtà diminuito.
Il terzo tipo di deriva è la deriva del sistema. In questo caso, non cambiano le persone o il loro comportamento cambia, ma il sistema stesso cambia. Ad esempio, nel corso del tempo, Facebook ha aumentato il limite della durata degli aggiornamenti di stato. Pertanto, qualsiasi studio longitudinale degli aggiornamenti di stato sarà vulnerabile agli artefatti causati da questo cambiamento. La deriva del sistema è strettamente correlata a un problema chiamato confusione algoritmica, che tratterò nella sezione 2.3.8.
Per concludere, molte grandi fonti di dati sono alla deriva a causa di cambiamenti in chi li sta utilizzando, nel modo in cui vengono utilizzati e nel modo in cui funzionano i sistemi. Queste fonti di cambiamento sono a volte interessanti domande di ricerca, ma queste modifiche complicano la capacità delle grandi fonti di dati di monitorare i cambiamenti a lungo termine nel tempo.