Im analogen Zeitalter war das Sammeln von Daten über das Verhalten - wer macht was und wann - teuer und daher relativ selten. Im digitalen Zeitalter wird das Verhalten von Milliarden von Menschen aufgezeichnet, gespeichert und analysiert. Wenn Sie zum Beispiel jedes Mal auf eine Website klicken, auf Ihrem Mobiltelefon einen Anruf tätigen oder etwas mit Ihrer Kreditkarte bezahlen, wird von einem Unternehmen eine digitale Aufzeichnung Ihres Verhaltens erstellt und gespeichert. Da diese Arten von Daten ein Nebenprodukt der alltäglichen Handlungen der Menschen sind, werden sie oft als digitale Spuren bezeichnet . Zusätzlich zu diesen von Unternehmen gehaltenen Spuren haben Regierungen auch unglaublich reiche Daten über Menschen und Unternehmen. Zusammen werden diese Geschäfts- und Regierungsprotokolle oft als Big Data bezeichnet .
Die ständig wachsende Flut von Big Data bedeutet, dass wir uns von einer Welt, in der Verhaltensdaten selten waren, in eine Welt bewegt haben, in der Verhaltensdaten reichlich vorhanden sind. Ein erster Schritt zum Lernen aus Big Data ist die Erkenntnis, dass es Teil einer breiteren Kategorie von Daten ist, die seit vielen Jahren in der Sozialforschung verwendet werden: Beobachtungsdaten . Beobachtungsdaten sind grob gesagt Daten, die sich aus der Beobachtung eines sozialen Systems ergeben, ohne in irgendeiner Weise zu intervenieren. Eine grobe Art, darüber nachzudenken, ist, dass Beobachtungsdaten alles sind, was nicht mit Leuten zu tun hat (zB Umfragen, das Thema von Kapitel 3) oder das Umfeld von Menschen verändert (zB Experimente, das Thema von Kapitel 4). So enthalten die Beobachtungsdaten neben den Aufzeichnungen von Unternehmen und Behörden auch Dinge wie den Text von Zeitungsartikeln und Satellitenfotos.
Dieses Kapitel besteht aus drei Teilen. Zunächst beschreibe ich in Abschnitt 2.2 ausführlich große Datenquellen und klärte einen grundlegenden Unterschied zwischen ihnen und den Daten, die in der Vergangenheit üblicherweise für die Sozialforschung verwendet wurden, auf. Dann beschreibe ich in Abschnitt 2.3 zehn gemeinsame Merkmale großer Datenquellen. Wenn Sie diese Eigenschaften verstehen, können Sie die Stärken und Schwächen bestehender Quellen schnell erkennen und die neuen Quellen nutzen, die in Zukunft verfügbar sein werden. Schließlich beschreibe ich in Abschnitt 2.4 drei Hauptforschungsstrategien, mit denen Sie aus Beobachtungsdaten lernen können: Dinge zählen, Dinge vorhersagen und ein Experiment approximieren.