Stora datakällor är överallt, men att använda dem för social forskning kan vara svårt. Enligt min erfarenhet finns det något som en "ingen gratis lunch" -regel för data: om du inte lägger mycket arbete på att samla det, så kommer du förmodligen att behöva lägga in mycket arbete och tänka på det och analysera den.
Dagens stora datakällor - och sannolikt imorgon - kommer att ha 10 egenskaper. Tre av dessa är generellt (men inte alltid) användbara för forskning: stora, alltid på och icke-reaktiva. Sju är generellt (men inte alltid) problematiska för forskning: ofullständig, otillgänglig, icke representativ, drivande, algoritmiskt förvirrad, smutsig och känslig. Många av dessa egenskaper uppstår i slutändan eftersom stora datakällor inte skapades för social forskning.
Baserat på idéerna i det här kapitlet anser jag att det finns tre huvudsakliga sätt att stora datakällor kommer att vara mest värdefulla för social forskning. För det första kan de göra det möjligt för forskare att bestämma mellan konkurrerande teoretiska förutsägelser. Exempel på denna typ av arbete är Farber (2015) New York Taxi Drivers) och King, Pan, and Roberts (2013) (censur i Kina). För det andra kan stora datakällor möjliggöra bättre mätning för policy genom nucasting. Ett exempel på denna typ av arbete är Ginsberg et al. (2009) (Google Flu Trends). Slutligen kan stora datakällor hjälpa forskare att göra kausala uppskattningar utan att springa experiment. Exempel på denna typ av arbete är Mas and Moretti (2009) (peer-effekter på produktivitet) och Einav et al. (2015) (effekt av startpris på auktioner på eBay). Vart och ett av dessa tillvägagångssätt tenderar emellertid att kräva att forskare tar mycket med data, såsom definitionen av en kvantitet som är viktig att uppskatta eller två teorier som ger konkurrerande förutsägelser. Således tror jag det bästa sättet att tänka på vad stora datakällor kan göra är att de kan hjälpa forskare som kan ställa intressanta och viktiga frågor.
Innan jag avslutar anser jag att det är värt att överväga att stora datakällor kan ha en viktig inverkan på förhållandet mellan data och teori. Hittills har detta kapitel använt sig av teoristyrd empirisk forskning. Men stora datakällor gör det också möjligt för forskare att göra empiriskt driven teoretisering . Det är genom att noggrann ackumulering av empiriska fakta, mönster och pussel kan forskare bygga nya teorier. Detta alternativa, datainriktade tillvägagångssätt till teorin är inte nytt, och det var mest kraftfullt formulerat av Barney Glaser och Anselm Strauss (1967) med deras uppmaning till grundad teori . Denna data-första tillvägagångssätt innebär emellertid inte "teoriens slut", vilket har hävdats i en del av journalistik kring forskning i den digitala tidsåldern (Anderson 2008) . I stället för att datormiljön ändras, borde vi förvänta oss en ombalansering av förhållandet mellan data och teori. I en värld där datainsamling var dyr var det meningsfullt att samla endast de data som teorierna föreslår blir mest användbara. Men i en värld där enorma mängder data redan är tillgängliga gratis är det meningsfullt att även försöka med en data-första tillvägagångssätt (Goldberg 2015) .
Som jag har visat i detta kapitel kan forskare lära sig mycket genom att titta på människor. I de följande tre kapitlen beskriver jag hur vi kan lära oss mer och olika saker om vi skräddarsy vår datainsamling och interagera med människor direkt genom att ställa frågor till dem (kapitel 3), springa experiment (kapitel 4) och till och med involvera dem i forskningsprocessen direkt (kapitel 5).