Big data worden gemaakt en door de overheid verzameld voor andere doeleinden dan onderzoeksdoeleinden. Met behulp van deze gegevens voor onderzoek vereist derhalve herbestemming.
Een geïdealiseerde weergave van sociaal onderzoek stelt zich een wetenschapper met een idee en dan het verzamelen van gegevens om dat idee te testen. Deze stijl van het onderzoek leidt tot een strakke pasvorm tussen onderzoeksvraag en data, maar het is beperkt, omdat een individuele onderzoeker vaak niet de middelen die nodig zijn om de gegevens die ze nodig hebben, zoals grote, rijke, en nationaal-representatieve gegevens te verzamelen hebben. Daarom is een veel sociaal-wetenschappelijk onderzoek in het verleden is gebruikt op grote schaal sociale enquêtes, zoals de General Social Survey (GSS), de American National Election Study (ANES), en de Panel Study of Income Dynamics (PSID). Deze grootschalig onderzoek worden meestal gerund door een team van onderzoekers en ze zijn ontworpen om gegevens die kunnen worden gebruikt door vele onderzoekers. Vanwege de doelen van deze grootschalige onderzoeken, wordt grote zorg besteed aan het ontwerpen van de gegevensverzameling en voorbereiding van de resulterende gegevens voor gebruik door onderzoekers zetten. Deze gegevens zijn door onderzoekers en voor onderzoekers.
Meeste sociale onderzoek met digitale tijdperk bronnen echter fundamenteel verschillend. In plaats van met behulp van gegevens door onderzoekers en voor onderzoekers verzameld, gebruikt gegevensbronnen die zijn gemaakt en door bedrijven en overheden verzameld voor hun eigen doeleinden, zoals het maken van winst, die een dienst, of het toedienen van een wet. Deze bedrijfsleven en de overheid gegevensbronnen zijn gekomen om te worden genoemd big data. Het doen van onderzoek met big data is anders dan het doen van onderzoek met data die oorspronkelijk werd gemaakt voor onderzoek. Vergelijk bijvoorbeeld, een social media website, zoals Twitter, met een traditionele opinieonderzoek zoals de General Social Survey (GSS). hoofddoelen van Twitter zijn om een dienst aan haar gebruikers te bieden en om winst te maken. In het proces van het bereiken van deze doelen, Twitter maakt gegevens die nuttig zijn voor het bestuderen van bepaalde aspecten van de publieke opinie kan zijn. Maar, in tegenstelling tot de General Social Survey (GSS), Twitter is niet primair gericht op sociaal-wetenschappelijk onderzoek.
De term big data is frustrerend vaag, en het groepeert veel verschillende dingen. Voor de toepassing van sociaal-wetenschappelijk onderzoek, ik denk dat het nuttig is om onderscheid te maken tussen twee soorten van big data bronnen:. Overheid administratie en zakelijke administratie regering administratieve gegevens zijn gegevens die zijn gemaakt door de overheid als onderdeel van hun routinematige activiteiten. Dit soort gegevens zijn gebruikt door onderzoekers in het verleden, zoals demografen studeren geboorte, huwelijk en dood verslagen, maar de overheid in toenemende mate het verzamelen en gedetailleerde verslagen vrijgeven in analyseerbare vormen. Zo heeft de overheid van New York geïnstalleerd digitale meters binnenkant van elke taxi in de stad. Deze meter registreert alle soorten gegevens over elk taxirit inbegrip van de bestuurder, de starttijd en de locatie, de stoptijd en de locatie, en het tarief. In een studie die ik later zal vertellen in dit hoofdstuk, Henry Farber (2015) hergebruikt deze gegevens aan een fundamenteel debat in arbeidseconomie over de relatie tussen de uurlonen en het aantal gewerkte uren aan te pakken.
Het tweede belangrijkste soort big data voor sociaal-wetenschappelijk onderzoek is zakelijke administratie. Dit zijn gegevens die business te creëren en te verzamelen als onderdeel van hun routinematige activiteiten. Deze zakelijke administratie worden vaak digitale sporen, en omvatten zaken als zoekopdracht in de zoekmachine logs, social media berichten, en call records van mobiele telefoons. Kritisch, deze zakelijke administratie zijn niet alleen over het online gedrag. Bijvoorbeeld, winkels die check-out scanners zijn het creëren van real-time metingen van productiviteit van de werknemers. In een studie die ik je later in dit hoofdstuk zal vertellen, Alexandre Mas en Enrico Moretti (2009) hergebruikt deze supermarkt check-out data om te bestuderen hoe de productiviteit van een arbeidersstaat wordt beïnvloed door de productiviteit van hun leeftijdsgenoten.
Aangezien deze beide voorbeelden illustreren, het idee van de herbestemming van fundamenteel belang is om te leren van big data. In mijn ervaring, sociale wetenschappers en data wetenschappers benaderen om deze herbestemming heel anders. Sociale wetenschappers, die gewend zijn aan het werken met data ontworpen voor onderzoek, zijn snel te wijzen op de problemen met de data hergebruikt terwijl het negeren van zijn sterke punten. Aan de andere kant, data wetenschappers zijn snel te wijzen op de voordelen van hergebruikt data terwijl het negeren van zijn zwakke punten. Uiteraard zou de beste benadering een hybride zijn. Dat wil zeggen, de onderzoekers nodig om de kenmerken van deze nieuwe bronnen van data-zowel goed als slecht en dan erachter te komen hoe om te leren van hen te begrijpen. En, dat is het plan voor de rest van dit hoofdstuk. Vervolgens zal ik tien gemeenschappelijke kenmerken van het bedrijfsleven en de overheid administratieve gegevens te beschrijven. Daarna zal ik drie onderzoek benaderingen die kunnen worden gebruikt met deze gegevens, benaderingen die goed geschikt zijn voor de kenmerken van deze gegevens beschrijven.