Stora data skapas och samlas in av företag och regeringar för andra ändamål än forskning. Användning av denna data för forskning kräver därför omarbetning.
Det första sättet att många människor möter social forskning i digital ålder är genom det som ofta kallas stor data . Trots den omfattande användningen av denna term, finns det ingen överenskommelse om vilka stora data som ens är. En av de vanligaste definitionerna av stora data fokuserar emellertid på "3 Vs": Volym, Variety och Hastighet. Det finns ungefär mycket data, i olika format, och det skapas ständigt. Vissa fans av stora data lägger också till andra "Vs" som Veracity and Value, medan vissa kritiker lägger till Vs som Vague och Vacuous. I stället för de 3 "Vs" (eller 5 "Vs" eller 7 "Vs"), för social forskning anser jag att en bättre plats att starta är de 5 "Ws": Vem, Vad, Var, När , och varför. I själva verket tror jag att många av de utmaningar och möjligheter som skapas av stora datakällor följer av bara en "W": Varför.
I den analoga åldern skapades de flesta data som användes för social forskning för att göra forskning. I den digitala tidsåldern skapas dock en stor mängd data av företag och regeringar för andra ändamål än forskning, till exempel tillhandahållande av tjänster, vinstutveckling och administration av lagar. Kreativa människor har emellertid insett att du kan omarbeta dessa företags- och regeringsdata för forskning. Att tänka tillbaka till konsten analogi i kapitel 1, precis som Duchamp återställde ett hittat objekt för att skapa konst, kan forskare nu omorganisera funna data för att skapa forskning.
Det finns utan tvekan stora möjligheter att återuppta, med hjälp av data som inte skapats för forskningsändamål, presenteras också nya utmaningar. Jämför exempelvis en social media-tjänst, till exempel Twitter, med en traditionell opinionsundersökning, såsom den allmänna sociala undersökningen. Twitters huvudsyfte är att tillhandahålla en tjänst till sina användare och att göra vinst. Den allmänna sociala undersökningen å andra sidan är inriktad på att skapa generella data för social forskning, särskilt för den offentliga opinionsundersökningen. Denna skillnad i mål innebär att de uppgifter som skapats av Twitter och den som skapats av den allmänna sociala undersökningen har olika egenskaper, även om båda kan användas för att studera den allmänna opinionen. Twitter fungerar i en skala och hastighet som den allmänna sociala undersökningen inte kan matcha, men Twitter, till skillnad från den allmänna sociala undersökningen, sticker inte noggrant till användarna och arbetar inte hårt för att upprätthålla jämförbarhet över tiden. Eftersom dessa två datakällor är så olika, är det inte meningsfullt att säga att den allmänna sociala undersökningen är bättre än Twitter eller vice versa. Om du vill ha timmeåtgärder av globalt humör (t.ex. Golder and Macy (2011) ) är Twitter bäst. Å andra sidan, om du vill förstå långsiktiga förändringar i polariseringen av attityder i USA (t.ex. DiMaggio, Evans, and Bryson (1996) ), är General Social Survey det bästa valet. Mer allmänt sett, snarare än att försöka argumentera för att stora datakällor är bättre eller sämre än andra typer av data, kommer det här kapitlet att försöka klargöra för vilka typer av forskningsfrågor stora datakällor har attraktiva egenskaper och för vilka typer av frågor de kanske inte är idealisk.
När man tänker på stora datakällor fokuserar många forskare omedelbart på online data skapad och samlad av företag, som sökmotorloggar och sociala medier. Emellertid lämnar detta smala fokus två andra viktiga källor till stor data. För det första kommer allt större företagens stora datakällor från digitala enheter i den fysiska världen. I det här kapitlet ska jag till exempel berätta för en studie om att en återförsäljning av utmatningsaffär för snabbköp för att studera hur arbetstagarens produktivitet påverkas av produktiviteten hos sina kamrater (Mas and Moretti 2009) . Sedan, i senare kapitel, berättar jag om forskare som använde samtalsposter från mobiltelefoner (Blumenstock, Cadamuro, and On 2015) och faktureringsdata skapade av elverktyg (Allcott 2015) . Såsom dessa exempel illustrerar handlar stora datakällor om mer än bara onlinebeteendet.
Den andra viktiga källan till stora data som saknas av en smal inriktning på online beteende är data som skapats av regeringarna. Dessa regeringsdata, som forskare kallar regeringsregister , innehåller saker som skatteregister, skolledningar och viktiga statistikregister (t.ex. register över födda och dödsfall). Regeringar har skapat denna typ av data för i vissa fall hundratals år, och samhällsvetenskapsmän har utnyttjat dem så länge som det har varit samhällsvetenskapliga. Vad som ändrats är dock digitalisering, vilket har gjort det dramatiskt lättare för regeringar att samla in, överföra, lagra och analysera data. I det här kapitlet ska jag till exempel berätta om en studie som återupptagna data från New York Citys regeringens digitala taxamätare för att ta itu med en grundläggande debatt inom arbetsekonomi (Farber 2015) . Sedan, i senare kapitel, berättar jag om hur statligt samlade röstningsrekord användes i en undersökning (Ansolabehere and Hersh 2012) och ett experiment (Bond et al. 2012) .
Jag tycker att tanken om återställande är grundläggande för att lära sig från stora datakällor, och så, innan jag pratar mer specifikt om de stora datakällornas egenskaper (avsnitt 2.3) och hur dessa kan användas i forskning (avsnitt 2.4), skulle jag vilja att erbjuda två delar av allmän rådgivning om återställande. För det första kan det vara frestande att tänka på den kontrast som jag har ställt upp som mellan "funna" data och "designad" data. Det är nära, men det är inte riktigt. Även om stora datakällor är "funna" ur forskarnas perspektiv, faller de inte bara från himlen. Istället är datakällor som "hittas" av forskare utformade av någon för något ändamål. Eftersom "hittade" data är utformade av någon, rekommenderar jag alltid att du försöker förstå så mycket som möjligt om de personer och processer som skapade dina data. För det andra är det ofta mycket bra att föreställa dig det perfekta datasetet för ditt problem när du reporposerar data och jämför det ideala datasetet med det du använder. Om du inte samlat in dina data själv är det troligt att det är viktiga skillnader mellan vad du vill och vad du har. Att märka dessa skillnader hjälper dig att klargöra vad du kan och inte kan lära av de data du har, och det kan föreslå nya data som du ska samla in.
Enligt min erfarenhet tenderar socialforskare och datavetenskapare att närma sig återupptagning mycket annorlunda. Socialforskare, som är vana vid att arbeta med data som är avsedda för forskning, är vanligtvis snabba på att påpeka problemen med återupptagna data samtidigt som de ignorerar dess styrkor. Å andra sidan är datavetenskapare snabbt snabba på att påpeka fördelarna med återupptagna data samtidigt som de ignorerar svagheterna. Det bästa sättet är naturligtvis en hybrid. Det vill säga forskare behöver förstå egenskaperna hos stora datakällor - både bra och dåliga - och sedan räkna ut hur man lär sig av dem. Och det är planen för resten av detta kapitel. I nästa avsnitt kommer jag att beskriva tio gemensamma egenskaper hos stora datakällor. Sedan kommer jag att beskriva tre forskningsmetoder som kan fungera bra med sådana data i följande avsnitt.