Τα μεγάλα δεδομένα που δημιουργούνται και συλλέγονται από τις κυβερνήσεις για σκοπούς άλλους από την έρευνα. Χρησιμοποιώντας αυτά τα δεδομένα για την έρευνα, ως εκ τούτου, απαιτεί αναπροσανατολισμό.
Μια εξιδανικευμένη άποψη της κοινωνικής έρευνας φαντάζεται έναν επιστήμονα που έχει μια ιδέα και, στη συνέχεια, τη συλλογή δεδομένων για τη δοκιμή αυτή την ιδέα. Αυτό το ύφος της έρευνας οδηγεί σε μια σφιχτή εφαρμογή μεταξύ των ερευνητικών ερώτηση και δεδομένων, αλλά είναι περιορισμένη, διότι ένα άτομο ερευνητής συχνά δεν διαθέτουν τους πόρους που απαιτούνται για τη συλλογή των δεδομένων που χρειάζονται, όπως είναι τα μεγάλα, πλούσια, και σε εθνικό επίπεδο-αντιπροσωπευτικά δεδομένα. Ως εκ τούτου, πολλοί κοινωνικής έρευνας κατά το παρελθόν έχει χρησιμοποιηθεί κοινωνικών ερευνών μεγάλης κλίμακας, όπως η Γενική Κοινωνική Έρευνα (GSS), την Αμερικανική Εθνική Μελέτη Εκλογών (ΑΝΕΣ), και Μελέτη Ομάδας Dynamics Εισοδήματος (PSID). Αυτά τα μεγάλης κλίμακας έρευνα γενικά διοικείται από μια ομάδα ερευνητών και έχουν σχεδιαστεί για να δημιουργήσουν τα δεδομένα που μπορεί να χρησιμοποιηθεί από πολλούς ερευνητές. Λόγω των στόχων αυτών των ερευνών μεγάλης κλίμακας, μεγάλη προσοχή έχει τεθεί σε σχεδιασμό της συλλογής δεδομένων και την προετοιμασία του προκύπτοντος δεδομένων για χρήση από τους ερευνητές. Τα στοιχεία αυτά είναι από τους ερευνητές και για τους ερευνητές.
Οι περισσότεροι κοινωνική έρευνα που χρησιμοποιεί ψηφιακές πηγές ηλικία, ωστόσο, είναι ριζικά διαφορετική. Αντί να χρησιμοποιεί τα δεδομένα που συλλέγονται από τους ερευνητές και για τους ερευνητές, χρησιμοποιεί πηγές δεδομένων που δημιουργήθηκαν και συλλέχθηκαν από τις επιχειρήσεις και τις κυβερνήσεις για τους δικούς τους σκοπούς, όπως το κέρδος, την παροχή μιας υπηρεσίας, ή τη χορήγηση ενός νόμου. Αυτές οι επιχειρήσεις και κυβερνητικές πηγές έχουν έρθει να ονομάζεται μεγάλες δεδομένα. Κάνοντας την έρευνα με μεγάλα δεδομένα είναι διαφορετικά από ό, τι κάνει την έρευνα με τα στοιχεία που δημιουργήθηκε αρχικά για την έρευνα. Συγκρίνετε, για παράδειγμα, μια ιστοσελίδα κοινωνικής μέσα ενημέρωσης, όπως το Twitter, με ένα παραδοσιακό έρευνα της κοινής γνώμης, όπως η Γενική Κοινωνική Έρευνα (GSS). κύριοι στόχοι του Twitter είναι να παρέχουν μια υπηρεσία για τους χρήστες της και να πραγματοποιήσουν ένα κέρδος. Κατά τη διαδικασία της επίτευξης των στόχων αυτών, το Twitter δημιουργεί δεδομένα που μπορεί να είναι χρήσιμη για τη μελέτη ορισμένων πτυχών της κοινής γνώμης. Αλλά, σε αντίθεση με τη Γενική Κοινωνική Έρευνα (GSS), το Twitter δεν είναι κατά κύριο λόγο επικεντρώνεται στην κοινωνική έρευνα.
Ο όρος μεγάλα στοιχεία είναι απογοητευτικά ασαφής, και συγκεντρώνει πολλά διαφορετικά πράγματα. Για τους σκοπούς της κοινωνικής έρευνας, νομίζω ότι είναι χρήσιμο να γίνει διάκριση ανάμεσα σε δύο είδη των μεγάλων πηγών δεδομένων:. Κυβέρνησης διοικητικά αρχεία και τις επιχειρήσεις διοικητικά αρχεία κυβέρνηση διοικητικά αρχεία είναι τα δεδομένα που δημιουργούνται από τις κυβερνήσεις ως μέρος των συνήθων δραστηριοτήτων τους. Αυτά τα είδη των αρχείων έχουν χρησιμοποιηθεί από ερευνητές στο παρελθόν, όπως οι δημογράφοι μελετώντας τη γέννηση, ο γάμος και ο θάνατος αρχεία, αλλά οι κυβερνήσεις όλο και περισσότερο τη συλλογή και την απελευθέρωση λεπτομερή αρχεία σε αναλυθούν μορφές. Για παράδειγμα, η κυβέρνηση της πόλης της Νέας Υόρκης εγκαταστάθηκε ψηφιακών μετρητών στο εσωτερικό του κάθε ταξί στην πόλη. Αυτά τα μέτρα καταγράψει όλα τα είδη των δεδομένων για κάθε ταξί, συμπεριλαμβανομένου του οδηγού, την ώρα έναρξης και την τοποθεσία, την ώρα λήξης και την τοποθεσία, και του ναύλου. Σε μια μελέτη που θα πω αργότερα σε αυτό το κεφάλαιο, Henry Farber (2015) repurposed αυτά τα δεδομένα για την αντιμετώπιση μιας ουσιαστικής συζήτησης στα οικονομικά της εργασίας για τη σχέση μεταξύ των ωριαίων μισθών και τον αριθμό των ωρών εργασίας.
Ο δεύτερος κύριος τύπος των μεγάλων δεδομένων για την κοινωνική έρευνα είναι η δουλειά διοικητικά αρχεία. Αυτά είναι στοιχεία που δημιουργούν τις επιχειρήσεις και να συλλέγουν ως μέρος των συνήθων δραστηριοτήτων τους. Αυτές οι επιχειρηματικές διοικητικά αρχεία που συχνά αποκαλείται ψηφιακή ίχνη, και περιλαμβάνουν τα πράγματα όπως τα αρχεία καταγραφής ερώτημα μηχανή αναζήτησης, δημοσιεύσεις κοινωνικών μέσων μαζικής ενημέρωσης, και να καλέσει τα αρχεία από κινητά τηλέφωνα. Κριτικά, αυτές οι επιχειρηματικές διοικητικά αρχεία δεν είναι μόνο για τα online συμπεριφορά. Για παράδειγμα, τα καταστήματα που χρησιμοποιούν σαρωτές check-out δημιουργία μέτρων σε πραγματικό χρόνο της παραγωγικότητας των εργαζομένων. Σε μια μελέτη που θα σας πω για αργότερα σε αυτό το κεφάλαιο, Alexandre Mas και Enrico Moretti (2009) repurposed αυτά τα δεδομένα για το check-out σούπερ μάρκετ για να μελετήσει τον τρόπο την παραγωγικότητα των εργατών επηρεάζεται από την παραγωγικότητα των συνομηλίκων τους.
Τα δύο αυτά παραδείγματα, η ιδέα της αναπροσανατολισμό είναι θεμελιώδους σημασίας για την εκμάθηση από τα μεγάλα στοιχεία. Στην εμπειρία μου, οι κοινωνικοί επιστήμονες και οι επιστήμονες δεδομένα προσέγγιση σε αυτό το αναπροσανατολισμό πολύ διαφορετικά. Κοινωνικοί επιστήμονες, οι οποίοι έχουν συνηθίσει να εργάζονται με τα δεδομένα προορίζονται για την έρευνα, είναι γρήγορη να επισημάνω τα προβλήματα με repurposed δεδομένα αγνοώντας τις δυνάμεις της. Από την άλλη πλευρά, οι επιστήμονες δεδομένα είναι γρήγορη να επισημάνω τα οφέλη της repurposed δεδομένων αγνοώντας τις αδυναμίες του. Φυσικά, η καλύτερη προσέγγιση θα ήταν ένα υβρίδιο. Δηλαδή, οι ερευνητές πρέπει να κατανοήσουν τα χαρακτηριστικά των νέων αυτών πηγών δεδομένων και καλά και κακά, και στη συνέχεια να καταλάβω πώς να μάθουμε από αυτούς. Και, αυτό είναι το σχέδιο για το υπόλοιπο αυτού του κεφαλαίου. Στη συνέχεια, θα περιγράψω δέκα κοινά χαρακτηριστικά των επιχειρήσεων και της κυβέρνησης διοικητικών δεδομένων. Μετά από αυτό, θα περιγράφουν τρεις ερευνητικές προσεγγίσεις που μπορούν να χρησιμοποιηθούν με αυτά τα δεδομένα, οι προσεγγίσεις οι οποίες είναι καλά κατάλληλο για τα χαρακτηριστικά των δεδομένων.