Οι μεγάλες πηγές δεδομένων είναι παντού, αλλά η χρήση τους για κοινωνική έρευνα μπορεί να είναι δύσκολη. Σύμφωνα με την εμπειρία μου, υπάρχει κάτι σαν κανόνας "δεν υπάρχει δωρεάν γεύμα" για τα δεδομένα: εάν δεν βάζετε πολλή δουλειά στη συλλογή του, τότε πιθανότατα θα πρέπει να κάνετε πολλή δουλειά για να το σκεφτείτε και αναλύοντας το.
Οι μεγάλες πηγές δεδομένων του σήμερα - και πιθανόν αύριο - θα τείνουν να έχουν 10 χαρακτηριστικά. Τρεις από αυτές είναι γενικά (αλλά όχι πάντοτε) χρήσιμες για την έρευνα: μεγάλες, πάντοτε και μη αντιδραστικές. Επτά είναι γενικά (αλλά όχι πάντα) προβληματικά για την έρευνα: ελλιπή, απροσπέλαστα, μη αντιπροσωπευτικά, παρασυρόμενα, αλγοριθμικά συγκεχυμένα, βρώμικα και ευαίσθητα. Πολλά από αυτά τα χαρακτηριστικά προκύπτουν τελικά επειδή δεν δημιουργήθηκαν μεγάλες πηγές δεδομένων για σκοπούς κοινωνικής έρευνας.
Με βάση τις ιδέες σε αυτό το κεφάλαιο, πιστεύω ότι υπάρχουν τρεις βασικοί τρόποι με τους οποίους οι μεγάλες πηγές δεδομένων θα είναι πολύτιμες για την κοινωνική έρευνα. Πρώτον, μπορούν να επιτρέψουν στους ερευνητές να αποφασίσουν μεταξύ ανταγωνιστικών θεωρητικών προβλέψεων. Παραδείγματα τέτοιων έργων είναι οι Farber (2015) και οι King, Pan, and Roberts (2013) (λογοκρισία στην Κίνα). Δεύτερον, οι μεγάλες πηγές δεδομένων μπορούν να επιτρέψουν τη βελτίωση των μετρήσεων για την πολιτική μέσω του Nowcasting. Ένα παράδειγμα αυτού του είδους εργασίας είναι ο Ginsberg et al. (2009) (Google Flu Trends). Τέλος, οι μεγάλες πηγές δεδομένων μπορούν να βοηθήσουν τους ερευνητές να κάνουν αιτιώδεις εκτιμήσεις χωρίς να τρέξουν πειράματα. Παραδείγματα τέτοιου είδους εργασιών είναι οι Mas and Moretti (2009) (επιπτώσεις από ομοτίμους στην παραγωγικότητα) και οι Einav et al. (2015) (αποτέλεσμα της τιμής εκκίνησης σε δημοπρασίες στο eBay). Κάθε μία από αυτές τις προσεγγίσεις, όμως, τείνει να απαιτεί από τους ερευνητές να αποδώσουν πολλά στοιχεία, όπως τον ορισμό μιας ποσότητας που είναι σημαντικό να εκτιμηθεί ή δύο θεωρίες που κάνουν ανταγωνιστικές προβλέψεις. Επομένως, πιστεύω ότι ο καλύτερος τρόπος να σκεφτούμε τι μπορούν να κάνουν οι μεγάλες πηγές δεδομένων είναι ότι μπορούν να βοηθήσουν τους ερευνητές που μπορούν να θέσουν ενδιαφέρουσες και σημαντικές ερωτήσεις.
Πριν ολοκληρώσω, νομίζω ότι αξίζει να ληφθεί υπόψη ότι οι μεγάλες πηγές δεδομένων μπορεί να έχουν σημαντική επίδραση στη σχέση μεταξύ δεδομένων και θεωρίας. Μέχρι στιγμής, το κεφάλαιο αυτό έχει υιοθετήσει την προσέγγιση της θεωρητικής εμπειρικής έρευνας. Αλλά οι μεγάλες πηγές δεδομένων επιτρέπουν επίσης στους ερευνητές να κάνουν εμπειρικά θεωρητική . Δηλαδή, μέσω της προσεκτικής συσσώρευσης εμπειρικών γεγονότων, μοτίβων και παζλ, οι ερευνητές μπορούν να δημιουργήσουν νέες θεωρίες. Αυτή η εναλλακτική, πρώτη προσέγγιση των θεωρητικών δεδομένων δεν είναι νέα, και ήταν πιο έντονα διατυπωμένη από τους Barney Glaser και Anselm Strauss (1967) με την έκκλησή τους για τη θεμελιωμένη θεωρία . Αυτή η πρώτη προσέγγιση δεδομένων, ωστόσο, δεν σημαίνει "το τέλος της θεωρίας", όπως έχει υποστηριχθεί σε κάποια δημοσιογραφία γύρω από την έρευνα στην ψηφιακή εποχή (Anderson 2008) . Αντίθετα, καθώς αλλάζει το περιβάλλον δεδομένων, θα πρέπει να αναμένουμε μια επανεξισορρόπηση της σχέσης μεταξύ δεδομένων και θεωρίας. Σε έναν κόσμο όπου η συλλογή δεδομένων ήταν δαπανηρή, ήταν λογικό να συλλέγονται μόνο τα δεδομένα που οι θεωρίες δείχνουν ότι θα είναι οι πιο χρήσιμες. Όμως, σε έναν κόσμο όπου τα τεράστια ποσά δεδομένων είναι ήδη διαθέσιμα δωρεάν, είναι λογικό να δοκιμάσουμε επίσης μια προσέγγιση δεδομένων-πρώτου (Goldberg 2015) .
Όπως έχω δείξει σε αυτό το κεφάλαιο, οι ερευνητές μπορούν να μάθουν πολλά παρακολουθώντας τους ανθρώπους. Στα επόμενα τρία κεφάλαια θα περιγράψω πώς μπορούμε να μάθουμε περισσότερα και διαφορετικά πράγματα εάν προσαρμόσουμε τη συλλογή δεδομένων μας και επικοινωνήσουμε άμεσα με τους ανθρώπους, ζητώντας τους ερωτήσεις (κεφάλαιο 3), πραγματοποιώντας πειράματα (κεφάλαιο 4) στην ερευνητική διαδικασία απευθείας (κεφάλαιο 5).