2.3.2.4 alla deriva

Deriva della popolazione, l'utilizzo deriva, e la deriva del sistema lo rendono difficile da usare fonte di dati grande per studiare le tendenze a lungo termine.

Uno dei grandi vantaggi di molte fonti di dati sono grandi che raccolgono i dati nel corso del tempo. I sociologi chiamano questo tipo di over-time dei dati, i dati longitudinali. E, naturalmente, i dati longitudinali sono molto importanti per studiare il cambiamento. Al fine di misurare in modo affidabile modifica, tuttavia, il sistema di misurazione stessa deve essere stabile. Nelle parole del sociologo Otis Dudley Duncan, "se si vuole misurare il cambiamento, non modificare la misura" (Fischer 2011) .

Purtroppo, molti sistemi-specialmente grande dati di sistema di business che creano e acquisizione digitale tracce-stanno cambiando tutto il tempo, un processo che chiamerò deriva. In particolare, questi sistemi cambiano in tre modi principali: la popolazione drift (variazione di chi sta loro utilizzo), la deriva comportamentale (cambiamento nel modo in cui le persone li utilizzano), e la deriva del sistema (il cambiamento nel sistema stesso). Le tre sorgenti di deriva significa che qualsiasi modello di dati di traccia digitali potrebbe essere causato da un importante cambiamento nel mondo, o potrebbe essere causato da una qualche forma di deriva.

La prima fonte di drift-popolazione drift-è che sta utilizzando il sistema, e questo cambia su scale di lunga data e scale di breve tempo. Ad esempio, dal 2008 ad oggi l'età media delle persone sui social media è aumentata. Oltre a queste tendenze a lungo termine, le persone che utilizzano un sistema in qualsiasi momento varia. Ad esempio, durante l'elezione presidenziale degli Stati Uniti del 2012 la percentuale di tweets di politica che sono stati scritti da donne oscillato da un giorno all'altro (Diaz et al. 2016) . Così, quello che potrebbe sembrare un cambiamento nello stato d'animo di Twitter-verse potrebbe in realtà essere solo cambiamenti che sta parlando da un momento all'altro.

Oltre ai cambiamenti che sta utilizzando un sistema, ci sono cambiamenti anche nel modo in cui viene utilizzato il sistema. Ad esempio, durante la Proteste di occupazione Parco Gezi di Istanbul, in Turchia nel 2013 manifestanti hanno cambiato il loro uso di hashtags come la protesta si è evoluto. Ecco come Zeynep Tufekci (2014) ha descritto la deriva, che era in grado di rilevare, perché lei stava osservando il comportamento su Twitter e sul terreno:

"Quello che era accaduto era che, non appena la protesta è diventata la storia dominante, un gran numero di persone. . . smesso di utilizzare i hashtag salvo per attirare l'attenzione su un fenomeno nuovo. . .. Mentre le proteste sono continuate, e anche intensificato, i hashtag sono morti verso il basso. Le interviste hanno rivelato due ragioni per questo. In primo luogo, una volta che tutti sapevano l'argomento, l'hashtag era allo stesso tempo superfluo e dispendioso sulla piattaforma Twitter carattere limitato. In secondo luogo, hashtags sono stati visti solo come utile per attirare l'attenzione su un particolare argomento, non per parlarne. "

Così, i ricercatori che studiavano le proteste analizzando tweets con hashtag di protesta legate avrebbe un senso distorto di ciò che stava accadendo a causa di questa deriva comportamentale. Ad esempio, si potrebbe credere che la discussione della protesta è diminuito molto prima che in realtà diminuito.

Il terzo tipo di deriva è la deriva del sistema. In questo caso, non sono le persone che hanno cambiato o il loro comportamento cambia, ma il sistema stesso cambia. Ad esempio, nel tempo Facebook ha aumentato il limite della lunghezza di aggiornamenti di stato. Così, qualsiasi studio longitudinale di aggiornamenti di stato sarà vulnerabile agli artefatti causati da questo cambiamento. la deriva del sistema è strettamente legato al problema chiamato confondimento algoritmico a cui ci rivolgiamo ora.