Anche se può essere disordinato, chiedendo arricchito può essere potente.
Un approccio diverso per affrontare l'incompletezza dei dati di traccia digitale è quello di arricchire direttamente con i dati di rilievo, un processo che chiamerò chiedere arricchito. Un esempio di chiedere arricchito è lo studio di Burke and Kraut (2014) , che ho descritto in precedenza nel capitolo (Sezione 3.2), sul fatto che interagiscono su Facebook aumenta la forza amicizia. In questo caso, Burke e Kraut combinati dati dell'indagine con i dati di log di Facebook.
L'impostazione che Burke e crucco stavano lavorando in, però, ha fatto sì che non avevano a che fare con due grandi problemi che i ricercatori che fanno faccia chiedendo arricchito. In primo luogo, in realtà collega tra loro il set-a dati di processo chiamato record linkage, l'abbinamento di un record in un set di dati con il record appropriato nel file di dati, può essere difficile e soggetto a errori (che vedremo un esempio di questo problema di seguito ). Il secondo problema principale richiesto arricchito è che la qualità delle tracce digitali sarà spesso difficile per i ricercatori valutare. Ad esempio, a volte il processo attraverso il quale viene raccolto è proprietario e potrebbe essere suscettibile di molti dei problemi descritti nel Capitolo 2. In altre parole, chiedendo arricchito frequentemente coinvolgono soggetto a errori di collegamento di indagini alle origini dati black-box di sconosciuti qualità. Nonostante le preoccupazioni che questi due problemi introducono, è possibile condurre una ricerca importante con questa strategia come è stato dimostrato da Stephen Ansolabehere e Eitan Hersh (2012) nelle loro ricerche sui modelli di voto negli Stati Uniti. Vale la pena di andare oltre questo studio in dettaglio perché molte delle strategie che Ansolabehere e Hersh sviluppati saranno utili in altre applicazioni di chiedere arricchito.
L'affluenza alle urne è stata oggetto di approfondite ricerche in scienze politiche, e in passato, la comprensione dei ricercatori di chi vota e perché è stata generalmente sulla base dell'analisi dei dati dell'indagine. Il voto in Stati Uniti, tuttavia, è un comportamento insolito che registra il governo se ogni cittadino ha votato (ovviamente, il governo non discografica che ogni cittadino voti per). Per molti anni, questi record di voto governative erano disponibili su moduli cartacei, sparsi in vari uffici del governo locale in tutto il paese. Questo ha reso difficile, ma non impossibile, per gli scienziati politici per avere un quadro completo degli elettori e di confrontare ciò che la gente dice nelle indagini circa il voto per il loro comportamento di voto attuale (Ansolabehere and Hersh 2012) .
Ma, ora questi record di voto sono stati digitalizzati, e un certo numero di aziende private hanno sistematicamente raccolto e fuse questi record di voto per produrre file complete di voto padrone che registrano il comportamento di voto di tutti gli americani. Ansolabehere e Hersh collaborato con una di queste società-Catalist LCC-, al fine di utilizzare il loro file di voto maestro per aiutare a sviluppare un quadro dell'elettorato. Inoltre, perché è basata su documenti digitali raccolti e curata da una società, ha offerto una serie di vantaggi rispetto ai precedenti sforzi da parte di ricercatori che era stato fatto senza l'ausilio di società e l'utilizzo di dischi analogici.
Come molte delle fonti tracce digitali in capitolo 2, il file master Catalist non includeva gran parte delle informazioni demografiche, attitudinali e comportamentali che Ansolabehere e Hersh necessari. Oltre a queste informazioni, Ansolabehere e Hersh erano particolarmente interessati a confrontare il comportamento di voto riferito al comportamento di voto convalidato (ad esempio, le informazioni nel database Catalist). Così, i ricercatori hanno raccolto i dati che volevano come parte della Cooperativa del Congresso Election Study (CCES), una vasta indagine sociale. Successivamente, i ricercatori hanno dato questi dati per Catalist, e Catalist dato i ricercatori di un file dati uniti che includeva convalidato comportamento di voto (da Catalist), il comportamento di voto auto-riferito (da CCES) e la demografia e gli atteggiamenti degli intervistati (da CCES ). In altre parole, Ansolabehere e Hersh arricchito i dati di voto con i dati dell'indagine, e il file unito risultante consente loro di fare qualcosa che nessuno dei due file attivato singolarmente.
Arricchendo il file di dati di base Catalist con i dati dell'indagine, Ansolabehere e Hersh è venuto a tre importanti conclusioni. In primo luogo, un eccesso di segnalazione del voto è dilagante: quasi la metà dei non votanti ha riferito di voto. In alternativa, un altro modo di vedere le cose è se qualcuno ha riferito di voto, c'è solo un 80% di possibilità che essi effettivamente votato. In secondo luogo, un eccesso di segnalazione non è casuale; over-reporting è più comune tra alto reddito, ben istruita, partigiani che sono impegnati negli affari pubblici. In altre parole, le persone che hanno più probabilità di votare sono anche più probabilità di mentire sul voto. Terzo, e più critica, a causa della natura sistematica di un eccesso di segnalazione, le differenze effettive tra gli elettori e non elettori sono più piccoli di quanto non appaiano solo dalle indagini. Per esempio, quelli con una laurea sono circa 22 punti percentuali in più probabilità di relazione di voto, ma sono solo 10 punti percentuali in più probabilità di voto vero e proprio. Inoltre, le teorie basate sulle risorse esistenti di voto sono molto meglio nel prevedere che riferirà voto di chi realmente voti, una scoperta empirica che richiede nuove teorie per capire e prevedere il voto.
Ma, quanto dovremmo fidarci di questi risultati? Ricordate questi risultati dipendono linking soggetto a errori ai dati black-box con quantità sconosciute di errore. Più in particolare, i risultati cerniera su due punti fondamentali: 1) la capacità di Catalist di combinare molte fonti di dati disparate per produrre un accurato file di dati master e 2) la capacità di Catalist di collegare i dati di rilievo al suo padrone file di dati. Ognuno di questi passaggi è molto difficile e gli errori a due passo potrebbe portare i ricercatori a conclusioni sbagliate. Tuttavia, sia l'elaborazione dei dati e la corrispondenza sono fondamentali per l'esistenza di Catalist come azienda in modo che possa investire risorse nella soluzione di questi problemi, spesso ad una scala che nessun ricercatore universitario individuo o un gruppo di ricercatori in grado di eguagliare. In via di ulteriore lettura al termine del capitolo, descrivo questi problemi in modo più dettagliato e come Ansolabehere e Hersh costruire la fiducia nei loro risultati. Sebbene questi dettagli sono specifici per questo studio, problemi simili a questi sorgeranno per altri ricercatori che desiderano creare un collegamento a black-box fonti di dati di traccia digitale.
Quali sono le lezioni generali ricercatori possono trarre da questo studio? In primo luogo, vi è un enorme valore da arricchire tracce digitali con i dati dell'indagine. In secondo luogo, anche se questi aggregati, le fonti di dati commerciali non dovrebbero essere considerati "verità a terra", in alcuni casi possono essere utili. In realtà, è meglio confrontare questi fonti di dati non alla verità assoluta (da cui cadrà sempre breve). Piuttosto, è meglio confrontarle con altre fonti di dati disponibili, che hanno invariabilmente errori pure.