Grandi i dati vengono creati e raccolti dai governi per scopi diversi dalla ricerca. Utilizzando questi dati per la ricerca, quindi, richiede riuso.
Una visione idealizzata della ricerca sociale immagina uno scienziato che ha un'idea e poi la raccolta di dati per testare questa idea. Questo stile di ricerca porta ad una perfetta aderenza tra la domanda di ricerca e dei dati, ma è limitata perché un singolo ricercatore spesso non hanno le risorse necessarie per raccogliere i dati di cui hanno bisogno, come i dati di grandi dimensioni, ricche, e a livello nazionale rappresentativi. indagini sociali su larga scala Pertanto, un sacco di ricerca sociale, in passato ha utilizzato, come ad esempio l'indagine generale sociale (GSS), l'American National Election Study (ANES) e Pannello studio delle dinamiche di reddito (PSID). Questi sondaggio su larga scala sono generalmente gestito da un team di ricercatori e sono progettati per creare i dati che possono essere utilizzati da molti ricercatori. A causa degli obiettivi di queste indagini su larga scala, grande cura viene messo in progettazione della raccolta dei dati e preparare i dati risultanti per l'utilizzo da parte dei ricercatori. Questi dati sono da ricercatori e per i ricercatori.
La maggior parte della ricerca sociale utilizzando fonti età digitali, tuttavia, è fondamentalmente diverso. Invece di utilizzare i dati raccolti dai ricercatori e per i ricercatori, utilizza fonti di dati che sono stati creati e raccolti da parte delle imprese e dei governi per i propri scopi come la realizzazione di un profitto, fornendo un servizio, o la somministrazione di una legge. Queste fonti di dati aziendali e governativi sono venuto per essere chiamato Big Data. Fare ricerca con grande dati è diverso da fare ricerca con i dati che è stato originariamente creato per la ricerca. Confronta, per esempio, un sito web di social media, come Twitter, con un tradizionale sondaggio di opinione pubblica come la General Social Survey (GSS). obiettivi principali di Twitter sono per fornire un servizio ai propri utenti e di realizzare un profitto. Nel processo di raggiungimento di questi obiettivi, Twitter crea dati che potrebbero essere utili per lo studio di alcuni aspetti della opinione pubblica. Ma, a differenza del General Social Survey (GSS), Twitter non è principalmente focalizzato sulla ricerca sociale.
Il grosso dei dati termine è frustrante vaga, e raggruppa molte cose diverse. Ai fini della ricerca sociale, penso che sia utile distinguere tra due tipi di grandi fonti di dati:. Atti amministrativi del governo e registri amministrativi affari di governo registri amministrativi sono i dati che vengono creati dai governi come parte della loro attività di routine. Questi tipi di record sono stati utilizzati dai ricercatori in passato, ad esempio demografi che studiano la nascita, il matrimonio, e registra la morte-ma i governi sono sempre più raccogliendo e rilasciando registrazioni dettagliate in forme analizzabili. Ad esempio, il governo di New York City installato contatori digitali all'interno di ogni taxi della città. Questi contatori registrano tutti i tipi di dati su ciascun taxi compreso il conducente, l'ora di inizio e la posizione, il tempo di arresto e la posizione, e la tariffa. In uno studio che dirò più avanti in questo capitolo, Henry Farber (2015) riproposto questi dati per affrontare un dibattito fondamentale per l'economia del lavoro circa il rapporto tra salari orari e il numero di ore lavorate.
Il secondo tipo principale di Big Data per la ricerca sociale è registri amministrativi aziendali. Si tratta di dati che le imprese a creare e raccogliere come parte della loro attività di routine. Questi record amministrativi aziendali sono spesso chiamati tracce digitali, e includono cose come i log delle query dei motori di ricerca, i messaggi dei media sociali, e chiamare record da telefoni cellulari. Criticamente, questi record amministrativi aziendali non sono solo di comportamento online. Ad esempio, i negozi che utilizzano scanner check out stanno creando misure in tempo reale di produttività dei lavoratori. In uno studio che ti dirò più avanti in questo capitolo, Alexandre Mas ed Enrico Moretti (2009) riproposto questi dati check-out dei supermercati per studiare come la produttività dei lavoratori è influenzato dalla produttività dei loro coetanei.
Poiché entrambi questi esempi illustrano, l'idea di riuso è fondamentale per imparare dai dati di grandi dimensioni. Nella mia esperienza, gli scienziati sociali e scienziati di dati si avvicinano a questa riproporre in modo molto diverso. Gli scienziati sociali, che sono abituati a lavorare con i dati progettati per la ricerca, sono pronti a sottolineare i problemi con i dati riproposto, ignorando i suoi punti di forza. D'altra parte, gli scienziati di dati sono pronti a sottolineare i vantaggi di dati riproposto, ignorando le sue debolezze. Naturalmente, l'approccio migliore sarebbe un ibrido. Cioè, i ricercatori hanno bisogno di capire le caratteristiche di queste nuove fonti di dati, sia buoni e cattivi, e poi capire come imparare da loro. E, cioè il piano per il resto di questo capitolo. Successivamente, mi limiterò a descrivere dieci caratteristiche comuni dei dati amministrativi aziendali e governativi. Dopo di che, mi limiterò a descrivere tre approcci di ricerca che possono essere utilizzati con questi dati, approcci che ben si adattano alle caratteristiche di questi dati.