Στην αναλογική εποχή, η συλλογή δεδομένων σχετικά με τη συμπεριφορά - ποιος κάνει τι και πότε - ήταν δαπανηρός και επομένως σχετικά σπάνιος. Τώρα, στην ψηφιακή εποχή, οι συμπεριφορές δισεκατομμυρίων ανθρώπων καταγράφονται, αποθηκεύονται και αναλύονται. Για παράδειγμα, κάθε φορά που κάνετε κλικ σε έναν ιστότοπο, πραγματοποιείτε μια κλήση στο κινητό σας τηλέφωνο ή πληρώνετε για κάτι με την πιστωτική σας κάρτα, δημιουργείται και αποθηκεύεται ψηφιακή καταγραφή της συμπεριφοράς σας από μια επιχείρηση. Επειδή αυτοί οι τύποι δεδομένων είναι υποπροϊόν των καθημερινών ενεργειών των ανθρώπων, ονομάζονται συχνά ψηφιακά ίχνη . Εκτός από αυτά τα ίχνη που κατέχουν οι επιχειρήσεις, οι κυβερνήσεις έχουν επίσης απίστευτα πλούσια στοιχεία τόσο για τους ανθρώπους όσο και για τις επιχειρήσεις. Μαζί αυτά τα επιχειρησιακά και κυβερνητικά αρχεία συχνά αποκαλούνται μεγάλα δεδομένα .
Η ολοένα αυξανόμενη πλημμύρα μεγάλων δεδομένων σημαίνει ότι έχουμε μετακομίσει από έναν κόσμο όπου τα δεδομένα συμπεριφοράς ήταν σπάνια σε έναν κόσμο όπου τα δεδομένα συμπεριφοράς είναι άφθονα. Ένα πρώτο βήμα στη μάθηση από τα μεγάλα δεδομένα συνειδητοποιεί ότι αποτελεί μέρος μιας ευρύτερης κατηγορίας δεδομένων που έχει χρησιμοποιηθεί για την κοινωνική έρευνα εδώ και πολλά χρόνια: παρατηρητικά δεδομένα . Κατά γενικό κανόνα, παρατηρητικά δεδομένα είναι οποιαδήποτε δεδομένα προκύπτουν από την παρατήρηση ενός κοινωνικού συστήματος χωρίς να παρεμβαίνουμε με κάποιο τρόπο. Ένας ακατέργαστος τρόπος για να το σκεφτεί κανείς είναι ότι τα δεδομένα παρατήρησης είναι όλα όσα δεν συνεπάγονται την ομιλία με ανθρώπους (π.χ., έρευνες, το θέμα του κεφαλαίου 3) ή την αλλαγή του περιβάλλοντος των ανθρώπων (π.χ. πειράματα, το θέμα του κεφαλαίου 4). Έτσι, εκτός από τα επιχειρηματικά και κυβερνητικά αρχεία, τα στοιχεία παρατήρησης περιλαμβάνουν επίσης στοιχεία όπως το κείμενο των άρθρων των εφημερίδων και των δορυφορικών φωτογραφιών.
Αυτό το κεφάλαιο έχει τρία μέρη. Πρώτον, στο τμήμα 2.2, περιγράφω λεπτομερέστερα τις πηγές δεδομένων και αποσαφηνίζω μια θεμελιώδη διαφορά μεταξύ αυτών και των δεδομένων που χρησιμοποιούνται συνήθως για κοινωνική έρευνα στο παρελθόν. Στη συνέχεια, στο τμήμα 2.3, περιγράφω δέκα κοινά χαρακτηριστικά των μεγάλων πηγών δεδομένων. Η κατανόηση αυτών των χαρακτηριστικών σας επιτρέπει να αναγνωρίζετε γρήγορα τις δυνάμεις και τις αδυναμίες των υφιστάμενων πηγών και θα σας βοηθήσουν να αξιοποιήσετε τις νέες πηγές που θα είναι διαθέσιμες στο μέλλον. Τέλος, στην ενότητα 2.4, περιγράφω τρεις κύριες στρατηγικές έρευνας που μπορείτε να χρησιμοποιήσετε για να μάθετε από τα δεδομένα παρατήρησης: την καταμέτρηση των πραγμάτων, την πρόβλεψη των πραγμάτων και την προσέγγιση ενός πειράματος.