Non importa quanto grandi siano i tuoi big data, probabilmente non ha le informazioni che desideri.
La maggior parte delle grandi fonti di dati sono incomplete , nel senso che non hanno le informazioni che vorresti per la tua ricerca. Questa è una caratteristica comune dei dati che sono stati creati per scopi diversi dalla ricerca. Molti scienziati sociali hanno già avuto l'esperienza di affrontare l'incompletezza, come un sondaggio esistente che non ha posto la domanda che era necessaria. Sfortunatamente, i problemi di incompletezza tendono ad essere più estremi nei big data. Nella mia esperienza, i big data tendono a mancare tre tipi di informazioni utili per la ricerca sociale: informazioni demografiche sui partecipanti, comportamento su altre piattaforme e dati per rendere operativi i costrutti teorici.
Dei tre tipi di incompletezza, il problema dei dati incompleti per rendere operativi i costrutti teorici è il più difficile da risolvere. E nella mia esperienza, è spesso accidentalmente trascurato. Approssimativamente, i costrutti teorici sono idee astratte che gli scienziati sociali studiano e rendono operativo un costrutto teorico significa proporre un modo per catturare quel costrutto con dati osservabili. Sfortunatamente, questo processo dal suono semplice si rivela spesso piuttosto difficile. Ad esempio, immaginiamo di provare empiricamente l'affermazione apparentemente semplice che le persone più intelligenti guadagnano di più. Per testare questa affermazione, dovresti misurare "intelligenza". Ma cos'è l'intelligenza? Gardner (2011) sostenuto che ci sono in realtà otto diverse forme di intelligenza. E ci sono procedure che potrebbero misurare accuratamente una di queste forme di intelligenza? Nonostante enormi quantità di lavoro da parte degli psicologi, queste domande non hanno ancora risposte univoche.
Quindi, anche un reclamo relativamente semplice - persone che sono più intelligenti guadagnano più denaro - può essere difficile da valutare empiricamente perché può essere difficile rendere operativi i costrutti teorici nei dati. Altri esempi di costrutti teorici che sono importanti ma difficili da rendere operativi includono "norme", "capitale sociale" e "democrazia". Gli scienziati sociali chiamano la corrispondenza tra costrutti teorici e validità del costrutto di dati (Cronbach and Meehl 1955) . Come suggerisce questa breve lista di costrutti, la validità della costruzione è un problema a cui gli scienziati sociali hanno lottato per molto tempo. Ma nella mia esperienza, i problemi di validità del costrutto sono ancora più grandi quando si lavora con dati che non sono stati creati per scopi di ricerca (Lazer 2015) .
Quando si valuta un risultato di ricerca, un modo rapido e utile per valutare la validità del costrutto è prendere il risultato, che di solito è espresso in termini di costrutti, e ri-esprimerlo in termini di dati utilizzati. Per esempio, considera due studi ipotetici che pretendono di dimostrare che le persone più intelligenti guadagnano di più. Nel primo studio, il ricercatore ha scoperto che le persone che ottengono buoni risultati con il Test delle Matrici Progressive di Raven - un test ben studiato dell'intelligenza analitica (Carpenter, Just, and Shell 1990) - hanno redditi più alti riportati sulle loro dichiarazioni dei redditi. Nel secondo studio, il ricercatore ha scoperto che le persone su Twitter che utilizzavano parole più lunghe hanno più probabilità di menzionare marchi di lusso. In entrambi i casi, questi ricercatori potrebbero affermare di aver dimostrato che le persone più intelligenti guadagnano più denaro. Tuttavia, nel primo studio i costrutti teorici sono ben resi operativi dai dati, mentre nel secondo non lo sono. Inoltre, come illustra questo esempio, più dati non risolvono automaticamente i problemi con la validità del costrutto. Dovresti dubitare dei risultati del secondo studio se riguardava un milione di tweet, un miliardo di tweet o un trilione di tweet. Per i ricercatori che non hanno familiarità con l'idea della validità del costrutto, la tabella 2.2 fornisce alcuni esempi di studi che hanno reso operativi i costrutti teorici usando i dati di traccia digitali.
Fonte di dati | Costrutto teorico | Riferimenti |
---|---|---|
Log di posta elettronica da un'università (solo metadati) | Relazioni sociali | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Post sui social media su Weibo | Impegno civico | Zhang (2016) |
Log di posta elettronica da un'azienda (metadati e testo completo) | Culturale in un'organizzazione | Srivastava et al. (2017) |
Sebbene il problema dei dati incompleti per l'acquisizione di costrutti teorici sia piuttosto difficile da risolvere, esistono soluzioni comuni agli altri tipi comuni di incompletezza: informazioni demografiche incomplete e informazioni incomplete sul comportamento di altre piattaforme. La prima soluzione è quella di raccogliere effettivamente i dati di cui hai bisogno; Te ne parlerò nel capitolo 3 quando ti parlerò dei sondaggi. La seconda soluzione principale consiste nel fare ciò che i ricercatori di dati chiamano inferenza attributo dell'utente e gli scienziati sociali chiamano imputazione . In questo approccio, i ricercatori usano le informazioni che hanno su alcune persone per inferire gli attributi di altre persone. Una terza soluzione possibile è combinare più origini dati. Questo processo è talvolta chiamato link linkage . La mia metafora preferita per questo processo è stata scritta da Dunn (1946) nel primissimo paragrafo del primissimo articolo mai scritto sul linkage:
"Ogni persona al mondo crea un libro di vita. Questo libro inizia con la nascita e finisce con la morte. Le sue pagine sono composte da record dei principali eventi della vita. Record linkage è il nome dato al processo di assemblaggio delle pagine di questo libro in un volume. "
Quando Dunn scrisse quel brano stava immaginando che il Libro della Vita potesse includere eventi importanti della vita come la nascita, il matrimonio, il divorzio e la morte. Tuttavia, ora che sono registrate così tante informazioni sulle persone, il Libro della vita potrebbe essere un ritratto incredibilmente dettagliato, se quelle pagine diverse (cioè le nostre tracce digitali) possono essere unite insieme. Questo libro di vita potrebbe essere una grande risorsa per i ricercatori. Ma potrebbe anche essere chiamato un database di rovine (Ohm 2010) , che potrebbe essere usato per tutti i tipi di scopi non etici, come descriverò nel capitolo 6 (Etica).