I big data vengono creati e raccolti da aziende e governi per scopi diversi dalla ricerca. L'utilizzo di questi dati per la ricerca, quindi, richiede il riutilizzo.
Il primo modo in cui molte persone incontrano la ricerca sociale nell'era digitale è attraverso quello che viene spesso chiamato big data . Nonostante l'uso diffuso di questo termine, non c'è consenso su cosa siano i big data. Tuttavia, una delle definizioni più comuni di big data si concentra sui "3 V": Volume, Varietà e Velocità. Approssimativamente, ci sono molti dati, in una varietà di formati, ed è stato creato costantemente. Alcuni fan dei big data aggiungono anche altri "V" come Veracity e Value, mentre alcuni critici aggiungono Vs come Vague e Vacuous. Piuttosto che i 3 "V" (oi 5 "V" oi 7 "V"), per gli scopi della ricerca sociale, penso che un posto migliore da iniziare sia il 5 "W": Who, What, Where, When , e perché. In effetti, penso che molte delle sfide e opportunità create dalle grandi fonti di dati derivino da una sola "W": perché.
Nell'era analogica, la maggior parte dei dati utilizzati per la ricerca sociale è stata creata allo scopo di condurre ricerche. Nell'era digitale, tuttavia, una grande quantità di dati viene creata da aziende e governi per scopi diversi dalla ricerca, come fornire servizi, generare profitti e amministrare le leggi. I creativi, tuttavia, si sono resi conto che è possibile riutilizzare questi dati aziendali e governativi per la ricerca. Ripensando all'analogia artistica nel capitolo 1, proprio come Duchamp ha riproposto un oggetto trovato per creare arte, gli scienziati possono ora riutilizzare i dati trovati per creare ricerche.
Mentre ci sono indubbiamente enormi opportunità di riproposizione, l'uso di dati che non sono stati creati ai fini della ricerca presenta anche nuove sfide. Confronta, ad esempio, un servizio di social media, come Twitter, con un sondaggio tradizionale sull'opinione pubblica, come ad esempio la Social Social Survey. Gli obiettivi principali di Twitter sono fornire un servizio ai propri utenti e realizzare un profitto. La General Social Survey, d'altra parte, si concentra sulla creazione di dati di carattere generale per la ricerca sociale, in particolare per la ricerca di opinione pubblica. Questa differenza di obiettivi significa che i dati creati da Twitter e quelli creati dall'Investigazione sociale generale hanno proprietà diverse, anche se entrambi possono essere utilizzati per studiare l'opinione pubblica. Twitter opera su una scala e su una velocità che il General Social Survey non può eguagliare, ma, a differenza del General Social Survey, Twitter non esamina con attenzione gli utenti e non lavora duramente per mantenere la comparabilità nel tempo. Poiché queste due fonti di dati sono così diverse, non ha senso dire che il sondaggio sociale generale è meglio di Twitter o viceversa. Se vuoi misure orarie di umore globale (ad esempio, Golder and Macy (2011) ), Twitter è il migliore. D'altra parte, se si vogliono comprendere i cambiamenti a lungo termine nella polarizzazione degli atteggiamenti negli Stati Uniti (ad esempio DiMaggio, Evans, and Bryson (1996) ), allora la General Social Survey è la scelta migliore. Più in generale, piuttosto che cercare di argomentare che le grandi fonti di dati sono migliori o peggiori di altri tipi di dati, questo capitolo cercherà di chiarire per quali tipi di ricerche le grandi fonti di dati hanno proprietà interessanti e per quali tipi di domande potrebbero non essere ideale.
Quando si pensa alle grandi fonti di dati, molti ricercatori si concentrano immediatamente sui dati online creati e raccolti dalle aziende, come i registri dei motori di ricerca e i post sui social media. Tuttavia, questo focus ristretto lascia fuori altre due importanti fonti di big data. In primo luogo, le fonti di dati di grandi dimensioni sempre più aziendali provengono da dispositivi digitali nel mondo fisico. Ad esempio, in questo capitolo, ti parlerò di uno studio che ha riproposto i dati di check-out del supermercato per studiare come la produttività di un lavoratore è influenzata dalla produttività dei suoi coetanei (Mas and Moretti 2009) . Quindi, nei capitoli successivi, ti racconterò di ricercatori che hanno utilizzato i registri delle chiamate da telefoni cellulari (Blumenstock, Cadamuro, and On 2015) e dati di fatturazione creati dalle utility elettriche (Allcott 2015) . Come illustrano questi esempi, le grandi fonti di dati aziendali sono qualcosa di più del semplice comportamento online.
La seconda fonte importante di big data che non si concentra su uno specifico focus sul comportamento online sono i dati creati dai governi. Questi dati governativi, che i ricercatori chiamano registri amministrativi del governo , includono elementi come registri fiscali, registri scolastici e dati statistici vitali (ad esempio registri di nascite e decessi). I governi hanno creato questo tipo di dati per, in alcuni casi, centinaia di anni, e gli scienziati sociali li hanno sfruttati quasi finchè ci sono stati scienziati sociali. Ciò che è cambiato, tuttavia, è la digitalizzazione, che ha reso drammaticamente più facile per i governi raccogliere, trasmettere, archiviare e analizzare i dati. Per esempio, in questo capitolo, ti racconterò di uno studio che ripropone i dati dei tassametri digitali del governo di New York per affrontare un dibattito fondamentale in economia del lavoro (Farber 2015) . Quindi, nei capitoli successivi, ti racconterò di come sono stati utilizzati i record di voto raccolti dal governo in un sondaggio (Ansolabehere and Hersh 2012) e un esperimento (Bond et al. 2012) .
Penso che l'idea di riproposizione sia fondamentale per imparare dalle grandi fonti di dati, quindi, prima di parlare più specificamente delle proprietà delle fonti di big data (sezione 2.3) e di come queste possano essere utilizzate nella ricerca (sezione 2.4), mi piacerebbe offrire due consigli generali sul ripopolamento. Innanzitutto, può essere allettante pensare al contrasto che ho impostato tra dati "trovati" e dati "progettati". È vicino, ma non è giusto. Anche se, dal punto di vista dei ricercatori, le "big data sources" vengono "trovate", non cadono semplicemente dal cielo. Invece, le fonti di dati che vengono "trovate" dai ricercatori sono progettate da qualcuno per qualche scopo. Poiché i dati "trovati" sono progettati da qualcuno, consiglio sempre di cercare di capire il più possibile le persone e i processi che hanno creato i tuoi dati. In secondo luogo, quando si stanno riutilizzando i dati, è spesso estremamente utile immaginare il set di dati ideale per il problema e quindi confrontare il set di dati ideale con quello che si sta utilizzando. Se non hai raccolto i tuoi dati da solo, è probabile che ci siano differenze importanti tra ciò che desideri e ciò che hai. Notare queste differenze ti aiuterà a chiarire che cosa puoi e non puoi imparare dai dati che hai, e potrebbe suggerire nuovi dati che dovresti raccogliere.
Nella mia esperienza, sociologi e scienziati dei dati tendono ad avvicinarsi al riproposizione in modo molto diverso. Gli scienziati sociali, che sono abituati a lavorare con dati progettati per la ricerca, sono in genere pronti a sottolineare i problemi con i dati riproposti ignorando i suoi punti di forza. D'altra parte, gli scienziati dei dati sono in genere pronti a sottolineare i benefici dei dati riproposti ignorando le sue debolezze. Naturalmente, l'approccio migliore è un ibrido. Cioè, i ricercatori devono capire le caratteristiche delle fonti di big data, sia buone che cattive, e quindi capire come imparare da esse. E questo è il piano per il resto di questo capitolo. Nella prossima sezione descriverò dieci caratteristiche comuni delle fonti di Big Data. Quindi, nella sezione seguente, descriverò tre approcci di ricerca che possono funzionare bene con tali dati.