Große Datenquellen gibt es überall, aber sie für die Sozialforschung zu nutzen, kann schwierig sein. Meiner Erfahrung nach gibt es so etwas wie eine "no free lunch" -Regel für Daten: Wenn Sie nicht viel Arbeit sammeln, dann müssen Sie wahrscheinlich viel arbeiten, darüber nachdenken und es analysieren.
Die großen Datenquellen von heute - und wahrscheinlich von morgen - werden tendenziell zehn Merkmale aufweisen. Drei davon sind generell (aber nicht immer) hilfreich für die Forschung: groß, immer aktiv und nicht reaktiv. Sieben sind generell (aber nicht immer) problematisch für die Forschung: unvollständig, unzugänglich, nicht repräsentativ, treibend, algorithmisch konfus, schmutzig und sensibel. Viele dieser Merkmale entstehen letztlich, weil große Datenquellen nicht für die Zwecke der Sozialforschung geschaffen wurden.
Ausgehend von den Ideen in diesem Kapitel denke ich, dass große Datenquellen vor allem für die Sozialforschung auf drei verschiedene Arten nützlich sein können. Erstens können sie den Forschern ermöglichen, zwischen konkurrierenden theoretischen Vorhersagen zu entscheiden. Beispiele für diese Art von Arbeit sind Farber (2015) (New York Taxifahrer) und King, Pan, and Roberts (2013) (Zensur in China). Zweitens können große Datenquellen eine verbesserte Messung für die Richtlinien durch Nowcasting ermöglichen. Ein Beispiel für diese Art von Arbeit ist Ginsberg et al. (2009) (Google Grippe-Trends). Schließlich können große Datenquellen den Forschern helfen, kausale Schätzungen zu erstellen, ohne Experimente durchzuführen. Beispiele für diese Art von Arbeit sind Mas and Moretti (2009) (Peer-Effekte auf die Produktivität) und Einav et al. (2015) (Effekt des Startpreises bei Auktionen bei eBay). Jeder dieser Ansätze erfordert jedoch von den Forschern, dass sie viel zu den Daten beitragen, wie zum Beispiel die Definition einer Menge, die für die Schätzung wichtig ist, oder zwei Theorien, die konkurrierende Vorhersagen treffen. Daher denke ich, dass der beste Weg, darüber nachzudenken, was große Datenquellen tun können, darin besteht, dass sie Forschern helfen können, die interessante und wichtige Fragen stellen können.
Bevor ich schließe, denke ich, dass es eine Überlegung wert ist, dass große Datenquellen einen wichtigen Einfluss auf die Beziehung zwischen Daten und Theorie haben können. Bis jetzt hat dieses Kapitel den Ansatz der Theorie-getriebenen empirischen Forschung genommen. Aber große Datenquellen ermöglichen Forschern auch empirisch getriebene Theorien . Das heißt, durch die sorgfältige Anhäufung empirischer Fakten, Muster und Rätsel können Forscher neue Theorien entwickeln. Diese Alternative, Data-First-Ansatz für die Theorie ist nicht neu, und es wurde am stärksten von Barney Glaser und Anselm Strauss (1967) mit ihrer Forderung nach einer geerdeten Theorie artikuliert. Dieser Data-First-Ansatz impliziert jedoch nicht das "Ende der Theorie", wie es im Journalismus rund um die Forschung im digitalen Zeitalter behauptet wird (Anderson 2008) . Wenn sich die Datenumgebung ändert, sollten wir vielmehr ein Rebalancing in der Beziehung zwischen Daten und Theorie erwarten. In einer Welt, in der die Datenerhebung teuer war, war es sinnvoll, nur die Daten zu sammeln, die laut den Theorien am nützlichsten sind. Aber in einer Welt, in der enorme Datenmengen bereits kostenlos zur Verfügung stehen, ist es sinnvoll, auch einen Data-First-Ansatz zu versuchen (Goldberg 2015) .
Wie ich in diesem Kapitel gezeigt habe, können Forscher viel lernen, indem sie Menschen beobachten. In den nächsten drei Kapiteln beschreibe ich, wie wir mehr und andere Dinge lernen können, wenn wir unsere Datensammlung maßschneidern und mit Menschen direkter interagieren, indem wir ihnen Fragen stellen (Kapitel 3), Experimente durchführen (Kapitel 4) und sie sogar einbeziehen im Forschungsprozess direkt (Kapitel 5).