Ακόμα κι αν μπορεί να είναι βρώμικο, εμπλουτισμένο ζητούμενη μπορεί να είναι ισχυρό.
Μια διαφορετική προσέγγιση για την αντιμετώπιση της μη πληρότητας των ψηφιακών δεδομένων ίχνος είναι να εμπλουτίσει απευθείας με τα στοιχεία της έρευνας, μια διαδικασία που θα καλέσω εμπλουτίζεται ζητούμενη. Ένα παράδειγμα εμπλουτισμένου ζητούμενη είναι η μελέτη των Burke and Kraut (2014) , που περιέγραψα νωρίτερα στο κεφάλαιο (Ενότητα 3.2), σχετικά με το αν αλληλεπιδρούν στο Facebook αυξάνει την αντοχή φιλία. Σε αυτή την περίπτωση, Burke και Kraut συνδυασμό στοιχείων της έρευνας με τα δεδομένα καταγραφής Facebook.
Η ρύθμιση που Burke και Kraut εργάζονταν σε, όμως, σήμαινε ότι δεν έχουν να αντιμετωπίσουν δύο μεγάλα προβλήματα που οι ερευνητές κάνουν εμπλουτίζεται ζητώντας πρόσωπο. Πρώτον, στην πραγματικότητα συνδέει μαζί το σετ-μια διαδικασία που ονομάζεται δεδομένων σύνδεσης ρεκόρ, το ταίριασμα μιας εγγραφής σε ένα σύνολο δεδομένων με το κατάλληλο αρχείο στο άλλο σύνολο δεδομένων, μπορεί να είναι δύσκολη και επιρρεπής σε λάθη (θα δούμε ένα παράδειγμα αυτού του προβλήματος κάτω ). Το δεύτερο βασικό πρόβλημα εμπλουτισμένου ζητώντας είναι ότι η ποιότητα των ψηφιακών ιχνών θα είναι συχνά δύσκολο για τους ερευνητές να εκτιμήσουν. Για παράδειγμα, μερικές φορές η διαδικασία μέσω της οποίας συλλέγονται είναι ιδιόκτητο και θα μπορούσε να είναι επιρρεπείς σε πολλά από τα προβλήματα που περιγράφονται στο κεφάλαιο 2. Με άλλα λόγια, εμπλουτισμένη ζητούμενη θα περιλαμβάνει συχνά επιρρεπής σε λάθη σύνδεση των ερευνών στο μαύρο κουτί πηγές δεδομένων άγνωστης ποιότητα. Παρά τις ανησυχίες που εισάγουν αυτά τα δύο προβλήματα, είναι δυνατόν να διεξάγει σημαντική έρευνα με τη στρατηγική αυτή, όπως αποδείχθηκε από τον Stephen Ansolabehere και Eitan Hersh (2012) στην έρευνά τους σχετικά με τα πρότυπα ψήφου στις ΗΠΑ. Αξίζει τον κόπο να πάει πέρα από αυτή τη μελέτη με κάποια λεπτομέρεια, διότι πολλές από τις στρατηγικές που Ansolabehere και Hersh αναπτυχθεί θα είναι χρήσιμα σε άλλες εφαρμογές του εμπλουτισμένου ζητούμενη.
Η προσέλευση των ψηφοφόρων έχει αποτελέσει το αντικείμενο εκτεταμένης έρευνας στην πολιτική επιστήμη, και κατά το παρελθόν, η κατανόηση των ερευνητών σχετικά με το ποιος ψηφίζει και γιατί έχει γενικά με βάση την ανάλυση των στοιχείων της έρευνας. Ψηφοφορία στις ΗΠΑ, ωστόσο, είναι μια ασυνήθιστη συμπεριφορά από το γεγονός ότι η κυβέρνηση εγγραφές αν κάθε πολίτης έχει ψηφίσει (φυσικά, η κυβέρνηση δεν καταγράφουν οι οποίοι κάθε ψήφους πολίτη για). Για πολλά χρόνια, οι κυβερνητικές αρχεία ψήφου ήταν διαθέσιμα σε έντυπη μορφή, διάσπαρτα σε διάφορα τοπικά κυβερνητικά γραφεία σε όλη τη χώρα. Αυτό το κατέστησε δύσκολο, αλλά όχι αδύνατο, για πολιτικούς επιστήμονες να έχουν μια πλήρη εικόνα του εκλογικού σώματος και να συγκρίνουν τι λένε οι άνθρωποι σε έρευνες σχετικά με την ψηφοφορία για την πραγματική συμπεριφορά ψήφου τους (Ansolabehere and Hersh 2012) .
Αλλά, τώρα αυτά τα ψηφίζοντας τα αρχεία έχουν ψηφιοποιηθεί, και μια σειρά από ιδιωτικές εταιρείες έχουν συστηματικά συλλέγονται και συγχωνεύονται αυτά τα αρχεία ψηφοφορίας για την παραγωγή ολοκληρωμένη κύρια αρχεία ψήφου που καταγράφουν τη συμπεριφορά ψήφου όλων των Αμερικανών. Ansolabehere και Hersh συνεργάζεται με μία από αυτές τις εταιρείες-Catalist LCC-in για να χρησιμοποιήσετε το αρχείο τους ψήφου πλοίαρχο να βοηθήσει να αναπτύξουν μια καλύτερη εικόνα του εκλογικού σώματος. Περαιτέρω, επειδή στηρίχθηκε σε ψηφιακά αρχεία συλλέγονται και επιμέλεια από μια εταιρεία, προσέφερε μια σειρά από πλεονεκτήματα σε σχέση με προηγούμενες προσπάθειες από τους ερευνητές που είχαν γίνει χωρίς τη βοήθεια των επιχειρήσεων και χρησιμοποιώντας αναλογικούς δίσκους.
Όπως πολλές από τις ψηφιακές πηγές ίχνος στο κεφάλαιο 2, το κύριο αρχείο Catalist δεν περιλαμβάνει ένα μεγάλο μέρος της δημογραφικής, συμπεριφοράς, και συμπεριφορικές πληροφορίες που απαιτούνται Ansolabehere και Hersh. Εκτός από αυτές τις πληροφορίες, Ansolabehere και Hersh έδειξαν ιδιαίτερο ενδιαφέρον για τη σύγκριση αναφερθεί ψήφου συμπεριφορά για να επικυρωθεί η συμπεριφορά ψήφου (δηλαδή, τις πληροφορίες στη βάση δεδομένων Catalist). Έτσι, οι ερευνητές συνέλεξαν τα δεδομένα που ήθελαν ως μέρος της Συνεταιριστικής Κογκρέσου Εκλογή Μελέτη (ΥΣΕΑ), μια μεγάλη κοινωνική έρευνα. Στη συνέχεια, οι ερευνητές έδωσαν αυτά τα δεδομένα για να Catalist, και Catalist έδωσαν οι ερευνητές πίσω ένα συγχωνευμένο αρχείο δεδομένων που περιλαμβάνονται επικυρωθεί συμπεριφορά ψήφου (από Catalist), την αυτο-αναφερόμενη συμπεριφορά ψήφου (από ΥΣΕΑ) και τα δημογραφικά στοιχεία και τις στάσεις των ερωτηθέντων (από ΥΣΕΑ ). Με άλλα λόγια, Ansolabehere και Hersh εμπλουτισμένη τα δεδομένα της ψηφοφορίας με τα στοιχεία της έρευνας, και η προκύπτουσα συγχωνευμένη αρχείο τους επιτρέπει να κάνουν κάτι που δεν το αρχείο ενεργοποιηθεί ξεχωριστά.
Εμπλουτίζοντας το κύριο αρχείο δεδομένων Catalist με τα στοιχεία της έρευνας, Ansolabehere και Hersh ήρθε σε τρία σημαντικά συμπεράσματα. Κατ 'αρχάς, πάνω-αναφορά της ψηφοφορίας είναι αχαλίνωτη: σχεδόν το ήμισυ των μη-ψηφοφόρους αναφερθεί ψήφου. Ή, ένας άλλος τρόπος για να εξετάσουμε είναι αν κάποιος αναφερθεί ψήφου, υπάρχει μόνο μια πιθανότητα 80% ότι πράγματι ψήφισαν. Δεύτερον, πάνω-αναφορά δεν είναι τυχαίο? πάνω-αναφοράς είναι συχνότερη μεταξύ των υψηλού εισοδήματος, μορφωμένοι, αντάρτες οι οποίοι ασχολούνται με τις δημόσιες υποθέσεις. Με άλλα λόγια, οι άνθρωποι που είναι πιο πιθανό να ψηφίσουν είναι επίσης πιο πιθανό να βρεθεί για την ψηφοφορία. Τρίτον, και πιο κριτικά, λόγω του συστηματικού χαρακτήρα της υπερ-πληροφόρησης, οι πραγματικές διαφορές μεταξύ των ψηφοφόρων και των μη-ψηφοφόροι είναι μικρότερα από ό, τι φαίνεται μόνο από τις έρευνες. Για παράδειγμα, τα άτομα με πτυχίο είναι περίπου 22 ποσοστιαίες μονάδες περισσότερες πιθανότητες να αναφέρουν ψήφου, αλλά είναι μόνο 10 ποσοστιαίες μονάδες πιο πιθανό με την πραγματική ψηφοφορία. Περαιτέρω, τα υπάρχοντα πόρο που βασίζεται θεωρίες της ψηφοφορίας είναι πολύ καλύτερα στην πρόβλεψη που θα αναφέρει ψήφου από αυτό που πραγματικά ψήφους, ένα εμπειρικό εύρημα που απαιτεί νέες θεωρίες για να κατανοήσει και να προβλέψει την ψηφοφορία.
Αλλά, πόσο πρέπει να εμπιστευόμαστε αυτά τα αποτελέσματα; Θυμηθείτε αυτά τα αποτελέσματα εξαρτώνται από την επιρρεπής σε λάθη σύνδεση με τα στοιχεία του μαύρου κουτιού με άγνωστες ποσότητες σφάλμα. Πιο συγκεκριμένα, τα αποτελέσματα εξαρτώνται από δύο βασικά στάδια: 1) την ικανότητα της Catalist να συνδυάσει πολλές διαφορετικές πηγές δεδομένων για την παραγωγή μιας ακριβούς κύριο αρχείο δεδομένων και 2) την ικανότητα της Catalist να συνδέσει τα στοιχεία της έρευνας για τον πλοίαρχο αρχείο δεδομένων του. Κάθε ένα από αυτά τα βήματα είναι αρκετά δύσκολο και σφάλματα σε κάθε βήμα θα μπορούσε να οδηγήσει τους ερευνητές σε λάθος συμπεράσματα. Ωστόσο, τόσο η επεξεργασία δεδομένων και ταιριάζουν είναι κρίσιμης σημασίας για την συνέχιση της ύπαρξης του Catalist ως εταιρεία, ώστε να μπορεί να επενδύσει πόρους στην επίλυση αυτών των προβλημάτων, συχνά σε μια κλίμακα που δεν υπάρχει επιμέρους ακαδημαϊκός ερευνητής ή η ομάδα των ερευνητών μπορεί να ταιριάξει. Στην περαιτέρω ανάγνωση στο τέλος του κεφαλαίου, έχω περιγράψει τα προβλήματα αυτά με περισσότερες λεπτομέρειες και πώς Ansolabehere και Hersh οικοδόμηση εμπιστοσύνης στα αποτελέσματα τους. Παρά το γεγονός ότι τα στοιχεία αυτά είναι ειδικά για αυτή τη μελέτη, τα θέματα παρόμοια με αυτά θα προκύψουν για άλλους ερευνητές που επιθυμούν να συνδεθούν με μαύρο κουτί πηγές δεδομένων ψηφιακών ιχνών.
Ποια είναι τα γενικά μαθήματα ερευνητές μπορούν να αντλήσουν από αυτή τη μελέτη; Κατ 'αρχάς, υπάρχει τεράστια αξία από τον εμπλουτισμό ψηφιακών ιχνών με τα στοιχεία της έρευνας. Δεύτερον, ακόμη και αν αυτές αθροίζονται, εμπορικές πηγές δεδομένων δεν θα πρέπει να θεωρείται «έδαφος αλήθεια», σε ορισμένες περιπτώσεις μπορεί να είναι χρήσιμη. Στην πραγματικότητα, το καλύτερο είναι να συγκρίνει αυτές τις πηγές δεδομένων δεν απόλυτη αλήθεια (από το οποίο πάντα θα υπολείπονται). Μάλλον, είναι καλύτερα να τα συγκρίνουν με άλλες διαθέσιμες πηγές δεδομένων, τα οποία έχουν σταθερά σφάλματα, καθώς και.