Non importa come "grandi" i tuoi "big data" probabilmente non ha le informazioni desiderate.
La maggior parte delle fonti di dati grandi sono incompleti, nel senso che non hanno le informazioni che si desidera per la vostra ricerca. Questa è una caratteristica comune di dati che sono stati creati per scopi diversi dalla ricerca. Molti scienziati sociali hanno già avuto l'esperienza di trattare con l'incompletezza, come ad esempio un sondaggio esistente che non ha chiesto la questione si voleva. Purtroppo, i problemi di incompletezza tendono ad essere più estrema dati grandi. Nella mia esperienza, grande dati tende a mancare tre tipi di informazioni utili per la ricerca sociale: demografia, comportamento su altre piattaforme, e dati per rendere operativi costrutti teorici.
Tutti e tre queste forme di incompletezza sono illustrate in uno studio condotto da Gueorgi Kossinets e Duncan Watts (2006) circa l'evoluzione del social network in una università. Kossinets e Watts hanno iniziato con i log di posta elettronica dell'università, che aveva informazioni precise su chi inviato e-mail ai quali a che ora (i ricercatori non hanno avuto accesso al contenuto dei messaggi di posta elettronica). Questi record di posta elettronica suonano come un insieme di dati incredibile, ma, sono, nonostante le loro dimensioni e la granularità-fondamentalmente incompleta. Ad esempio, i registri e-mail non includono i dati relativi alle caratteristiche demografiche degli studenti, come il sesso e l'età. Inoltre, i log di posta elettronica non includono informazioni sulla comunicazione tramite altri mezzi di comunicazione, come ad esempio telefonate, messaggi di testo, o conversazioni faccia a faccia. Infine, i log di posta elettronica non includono direttamente informazioni sulle relazioni, i costrutti teorici in molte teorie esistenti. Più avanti nel capitolo, quando parlo di strategie di ricerca, vedrete come Kossinets e Watts risolto questi problemi.
Dei tre tipi di incompletezza, il problema dei dati incompleti rendere operativo costrutti teorici è la più difficile da risolvere, e nella mia esperienza, è spesso trascurato dagli scienziati accidentalmente dati. Approssimativamente, costrutti teorici sono idee astratte che gli scienziati sociali studiano, ma, purtroppo, questi costrutti non possono sempre essere chiaramente definite e misurate. Ad esempio, immaginiamo cercando di testare empiricamente l'apparentemente semplice affermazione che le persone che sono più intelligenti guadagnare di più. Al fine di testare questa affermazione si avrebbe bisogno di misurare la "intelligenza". Ma, che cosa è l'intelligenza? Ad esempio, Gardner (2011) ha sostenuto che ci sono in realtà otto diverse forme di intelligenza. E, ci sono procedure che possono misurare con precisione qualsiasi di queste forme di intelligenza? Nonostante enormi quantità di lavoro da psicologi, queste domande non hanno ancora risposte univoche. Così, anche relativamente semplice claim-persone che sono più intelligenti guadagnano più denaro può essere difficile da valutare empiricamente perché può essere difficile rendere operativo costrutti teorici nei dati. Altri esempi di costrutti teorici che sono importanti, ma difficili da rendere operativa includere "norme", "il capitale sociale" e "democrazia". Gli scienziati sociali chiamano la corrispondenza tra costrutti teorici e dati costrutto validità (Cronbach and Meehl 1955) . E, in quanto questo elenco di costrutti suggerisce, costruire validità è un problema che gli scienziati sociali hanno lottato con per un tempo molto lungo, anche quando stavano lavorando con i dati che sono stati raccolti a fini di ricerca. Quando si lavora con i dati raccolti per scopi diversi dalla ricerca, i problemi della validità di costrutto sono ancora più impegnativo (Lazer 2015) .
Quando si sta leggendo un documento di ricerca, in un modo rapido e utile per valutare le preoccupazioni circa validità di costrutto è quello di prendere la domanda principale nella carta, che di solito è espressa in termini di costrutti, e ri-esprimere in termini di dati utilizzati. Ad esempio, considerare due studi ipotetici che pretendono di dimostrare che le persone più intelligenti guadagnare di più:
In entrambi i casi, i ricercatori potrebbero affermare che essi hanno dimostrato che le persone più intelligenti guadagnare di più. Ma, nel primo studio i costrutti teorici sono ben operazionalizzati dai dati, e nel secondo non lo sono. Inoltre, in quanto questo esempio illustra, più dati non risolve automaticamente i problemi con validità di costrutto. Si dovrebbe mettere in dubbio i risultati dello studio 2 se è coinvolto un milione di tweet, un miliardo di tweet, o un trilione di tweet. Per i ricercatori non hanno familiarità con l'idea di validità di costrutto, Tabella 2.2 fornisce alcuni esempi di studi che hanno reso operativo costrutti teorici che utilizzano i dati di traccia digitali.
traccia digitale | costrutto teorico | Citazione |
---|---|---|
log e-mail da una università (solo meta-dati) | Relazioni sociali | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
messaggi di social media su Weibo | Impegno civico | Zhang (2016) |
log e-mail da una ditta (meta-dati e testo completo) | fit culturale in un'organizzazione | Goldberg et al. (2015) |
Anche se il problema dei dati incompleti per costrutti teorici operazionalizzare è piuttosto difficile da risolvere, ci sono tre soluzioni comuni al problema delle informazioni demografiche incomplete e informazioni incomplete sul comportamento su altre piattaforme. Il primo è quello di raccogliere in realtà i dati necessari; Io ti racconto un esempio di che nel Capitolo 3, quando io vi parli di sondaggi. Purtroppo, questo tipo di raccolta dei dati non è sempre possibile. La seconda soluzione principale è quello di fare ciò che gli scienziati chiamano dati inferenza user-attributo e ciò che gli scienziati sociali chiamano imputazione. In questo approccio, i ricercatori utilizzano le informazioni che essi hanno su alcune persone per dedurre gli attributi delle altre persone. La terza possibile soluzione, quella usata da Kossinets e Watts-è stato quello di combinare più fonti di dati. Questo processo è talvolta chiamato la fusione o di record linkage. La mia metafora preferita per questo processo è stato proposto nel primo paragrafo del primo documento mai scritto su record linkage (Dunn 1946) :
"Ogni persona nel mondo crea un Libro della Vita. Questo libro inizia con la nascita e finisce con la morte. Le sue pagine sono costituite da registrazioni dei principali eventi della vita. Record linkage è il nome dato al processo di assemblaggio delle pagine di questo libro in un volume ".
Questo brano è stato scritto nel 1946, e in quel momento, la gente pensava che il libro della vita potrebbe includere i principali eventi della vita come la nascita, il matrimonio, il divorzio, e la morte. Tuttavia, ora che così tante informazioni su persone vengono registrate, il libro della vita potrebbe essere un ritratto incredibilmente dettagliato, se tali pagine diverse (ad esempio, le nostre tracce digitali), possono essere legate insieme. Questo libro della vita potrebbe essere una grande risorsa per i ricercatori. Ma, il libro della vita potrebbe anche essere chiamato un database di rovina (Ohm 2010) , che potrebbe essere utilizzato per tutti i tipi di scopi non etici, come meglio descritto di seguito quando parlo di natura sensibile delle informazioni raccolte da grandi fonti di dati al di sotto e nel Capitolo 6 (Etica).