Αυτό το τμήμα έχει σχεδιαστεί για να χρησιμοποιείται ως σημείο αναφοράς, αντί να διαβαστεί ως μια αφήγηση.
Πολλά από τα θέματα σε αυτό το κεφάλαιο έχουν επίσης αντανακλάται στην πρόσφατη Προεδρικό Διευθύνσεις στην Αμερικανική Ένωση της Κοινής Γνώμης Research (AAPOR), όπως Dillman (2002) , Newport (2011) , Santos (2014) , και Link (2015) .
Για περισσότερες ιστορικό υπόβαθρο για την ανάπτυξη της έρευνας έρευνα, βλέπε Smith (1976) και Converse (1987) . Για περισσότερες πληροφορίες σχετικά με την ιδέα των τριών εποχών της έρευνας έρευνα, βλέπε Groves (2011) και Dillman, Smyth, and Christian (2008) (το οποίο διασπά τις τρεις εποχές ελαφρώς διαφορετικά).
Μια κορυφή στο εσωτερικό τη μετάβαση από την πρώτη στη δεύτερη εποχή στην έρευνα έρευνα είναι Groves and Kahn (1979) , η οποία κάνει μια λεπτομερή σύγκριση head-to-head ανάμεσα σε ένα πρόσωπο-με-πρόσωπο και τηλεφωνική έρευνα. Brick and Tucker (2007) κοιτά πίσω στην ιστορική εξέλιξη των τυχαίων ψηφίων μεθόδους δειγματοληψίας κλήσης.
Για περισσότερες πόσο έρευνα έρευνα έχει αλλάξει στο παρελθόν ως απάντηση σε αλλαγές στην κοινωνία, βλ Tourangeau (2004) , Mitofsky (1989) , και Couper (2011) .
Μαθαίνοντας για τις εσωτερικές καταστάσεις κάνοντας ερωτήσεις μπορεί να είναι προβληματική, διότι μερικές φορές οι ίδιοι οι ερωτηθέντες δεν γνωρίζουν τις εσωτερικές τους καταστάσεις. Για παράδειγμα, Nisbett and Wilson (1977) έχουν ένα υπέροχο χαρτί με το υποβλητικό τίτλο: «Μυστικό περισσότερο από ό, τι μπορούμε να γνωρίζουμε:. Προφορικές αναφορές για την ψυχική διαδικασίες" Στο έγγραφο οι συγγραφείς συμπεραίνουν: «υποκείμενα είναι μερικές φορές (α) αγνοεί το ύπαρξη ενός ερεθίσματος που κυρίως επηρέασε μια απάντηση, (β) αγνοεί την ύπαρξη της απάντησης, και (γ) δεν γνωρίζουν ότι το ερέθισμα έχει επηρεάσει την απάντηση ".
Για τα επιχειρήματα που οι ερευνητές θα πρέπει να προτιμούν παρατηρούμενη συμπεριφορά να αναφερθεί συμπεριφορά ή στάση, δείτε Baumeister, Vohs, and Funder (2007) (ψυχολογία) και Jerolmack and Khan (2014) και τις αποκρίσεις (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (κοινωνιολογία). Η διαφορά μεταξύ ζητώντας και παρατηρώντας επίσης προκύπτει στα οικονομικά, όπου οι ερευνητές μιλούν για δηλώνεται και αποκάλυψε τις προτιμήσεις. Για παράδειγμα, ένας ερευνητής θα μπορούσε να ζητήσει ερωτηθέντων αν προτιμούν να τρώνε παγωτό ή πρόκειται να το γυμναστήριο (αναφέρεται προτιμήσεις) ή η έρευνα θα μπορούσε να παρατηρήσει πόσο συχνά οι άνθρωποι τρώνε παγωτό και να πάει στο γυμναστήριο (αποκάλυψε τις προτιμήσεις). Υπάρχει βαθύ σκεπτικισμό ορισμένων τύπων δήλωσε δεδομένων προτιμήσεις στα οικονομικά (Hausman 2012) .
Ένα κύριο θέμα από αυτές τις συζητήσεις είναι αυτό που αναφέρεται συμπεριφορά δεν είναι πάντα ακριβείς. Αλλά, αυτόματα καταγράφεται η συμπεριφορά μπορεί να μην είναι ακριβή, δεν μπορούν να συλλέγονται σε ένα δείγμα του ενδιαφέροντος, και μπορεί να μην είναι προσβάσιμα στους ερευνητές. Έτσι, σε ορισμένες περιπτώσεις, νομίζω ότι αναφέρθηκαν συμπεριφορά μπορεί να είναι χρήσιμη. Περαιτέρω, ένα δεύτερο κύριο θέμα από αυτές τις συζητήσεις είναι ότι οι εκθέσεις για τα συναισθήματα, τις γνώσεις, τις προσδοκίες και τις απόψεις δεν είναι πάντα ακριβείς. Αλλά, εάν οι πληροφορίες σχετικά με αυτές τις εσωτερικές καταστάσεις απαιτούνται από τους ερευνητές-είτε για να βοηθήσει να εξηγήσει κάποια συμπεριφορά ή το πράγμα που πρέπει να εξηγηθεί, στη συνέχεια, ζητώντας μπορεί να είναι κατάλληλη.
Για θεραπείες διάρκειας βιβλίο στο συνολικό σφάλμα έρευνα, βλέπε Groves et al. (2009) ή Weisberg (2005) . Για μια ιστορία της ανάπτυξης του συνόλου των σφαλμάτων έρευνα, βλέπε Groves and Lyberg (2010) .
Από την άποψη της αντιπροσώπευσης, μια μεγάλη εισαγωγή στα θέματα της μη απάντησης και προκατάληψη μη απάντηση είναι η έκθεση του Εθνικού Συμβουλίου Έρευνας για αναπάντητα ερωτηματολόγια στις Κοινωνικές Επιστήμες Έρευνες: Ένα θεματολόγιο έρευνας (2013) . Μια άλλη χρήσιμη επισκόπηση παρέχεται από (Groves 2006) . Επίσης, ολόκληρο ειδικά θέματα της Εφημερίδας των επίσημων στατιστικών, η κοινή γνώμη τριμηνιαία και χρονικά της Αμερικανικής Ακαδημίας Πολιτικών και Κοινωνικών Επιστημών έχουν δημοσιευθεί για το θέμα της μη απάντησης. Τέλος, υπάρχουν πραγματικά πολλοί διαφορετικοί τρόποι υπολογισμού του συντελεστή απόκρισης? αυτές οι προσεγγίσεις περιγράφονται λεπτομερώς στην έκθεση από την Αμερικανική Ένωση Δημόσιας Γνώμη Ερευνητές (AAPOR) (Public Opinion Researchers} 2015) .
Η Λογοτεχνική Digest δημοσκόπηση του 1936 έχει μελετηθεί λεπτομερώς (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Επίσης, έχει χρησιμοποιηθεί ως μια παραβολή για να προειδοποιήσει κατά τη συλλογή τυχαία δεδομένα (Gayo-Avello 2011) . Το 1936, ο George Gallup χρησιμοποιείται μια πιο εξελιγμένη μορφή δειγματοληψίας, και ήταν σε θέση να παράγει πιο ακριβείς εκτιμήσεις με ένα πολύ μικρότερο δείγμα. Επιτυχία Gallup πάνω Φιλολογικού Digest ήταν ένα ορόσημο στην ανάπτυξη της ερευνητικής έρευνας (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Από την άποψη της μέτρησης, ένα μεγάλο πρώτο πόρος για το σχεδιασμό ερωτηματολογίων είναι Bradburn, Sudman, and Wansink (2004) . Για μια πιο προηγμένη επεξεργασία επικεντρώθηκε ειδικά σε ζητήματα στάση, δείτε Schuman and Presser (1996) . Περισσότερα για ερωτήσεις πριν την δοκιμή είναι διαθέσιμη σε Presser and Blair (1994) , Presser et al. (2004) , και το κεφάλαιο 8 του Groves et al. (2009) .
Η θεραπεία κλασικό, το βιβλίο-μήκους του trade-off μεταξύ του κόστους της έρευνας και τα λάθη της έρευνας είναι Groves (2004) .
Κλασικό επεξεργασία βιβλίο-μήκους του προτύπου τυχαία δειγματοληψία και η εκτίμηση είναι Lohr (2009) (περισσότερες εισαγωγικές) και Särndal, Swensson, and Wretman (2003) (πιο προχωρημένη). Ένα κλασικό επεξεργασία βιβλίο-μήκους μεθόδους μετα-διαστρωμάτωση και συναφή είναι Särndal and Lundström (2005) . Σε ορισμένες ρυθμίσεις ψηφιακή εποχή, οι ερευνητές γνωρίζουν αρκετά για μη ερωτηθέντων, το οποίο δεν ήταν συχνά αλήθεια στο παρελθόν. Διαφορετικές μορφές προσαρμογής μη απάντησης είναι δυνατόν, όταν οι ερευνητές έχουν πληροφορίες σχετικά με τη μη ερωτηθέντων (Kalton and Flores-Cervantes 2003; Smith 2011) .
Η μελέτη του Xbox των Wang et al. (2015) χρησιμοποιεί μια τεχνική που ονομάζεται πολυεπίπεδη παλινδρόμησης και μετα-διαστρωμάτωση (MRP, μερικές φορές ονομάζεται "Mister P"), που επιτρέπει στους ερευνητές να εκτιμούν κυττάρων σημαίνει ότι ακόμα και όταν υπάρχουν πολλά, πολλά κύτταρα. Αν και υπάρχει κάποια συζήτηση σχετικά με την ποιότητα των εκτιμήσεων από αυτήν την τεχνική, φαίνεται σαν μια πολλά υποσχόμενη περιοχή για να εξερευνήσετε. Η τεχνική αυτή χρησιμοποιήθηκε για πρώτη φορά στο Park, Gelman, and Bafumi (2004) , και υπήρξε μεταγενέστερη χρήση και συζήτηση (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Για περισσότερες πληροφορίες σχετικά με τη σύνδεση μεταξύ των επιμέρους βάρη και τα βάρη με βάση τα κύτταρα δείτε Gelman (2007) .
Για άλλες προσεγγίσεις για την στάθμιση έρευνες web, δείτε Schonlau et al. (2009) , Valliant and Dever (2011) , και Bethlehem (2010) .
Ταιριάζουν δείγμα προτάθηκε από Rivers (2007) . Bethlehem (2015) υποστηρίζει ότι η εκτέλεση της αντιστοίχισης του δείγματος στην πραγματικότητα θα είναι παρόμοια με άλλες προσεγγίσεις δειγματοληψίας (π.χ., στρωματοποιημένη δειγματοληψία) και άλλες προσεγγίσεις προσαρμογής (π.χ., μετά τη διαστρωμάτωση). Για περισσότερες πληροφορίες σχετικά με απευθείας σύνδεση πίνακες, δείτε Callegaro et al. (2014) .
Μερικές φορές, οι ερευνητές έχουν διαπιστώσει ότι τυχαία δείγματα και δείγματα μη πιθανότητας να δώσει εκτιμήσεις ανάλογης ποιότητας (Ansolabehere and Schaffner 2014) , αλλά και άλλες συγκρίσεις έχουν διαπιστώσει ότι τα δείγματα μη πιθανότητας να κάνει χειρότερα (Malhotra and Krosnick 2007; Yeager et al. 2011) . Ένας πιθανός λόγος για αυτές τις διαφορές είναι ότι τα δείγματα μη πιθανότητας έχουν βελτιωθεί με την πάροδο του χρόνου. Για μια πιο απαισιόδοξη άποψη των μεθόδων δειγματοληψίας μη πιθανότητας δείτε το την Task Force AAPOR για μη πιθανότητα δειγματοληψίας (Baker et al. 2013) , και εγώ προτείνουμε επίσης και διαβάζοντας το σχόλιο που ακολουθεί τη συνοπτική έκθεση.
Για μια μετα-ανάλυση για την επίδραση της βαρύτητας για τη μείωση της προκατάληψης σε δείγματα μη πιθανότητας, βλέπε Πίνακα 2.4 στο Tourangeau, Conrad, and Couper (2013) , η οποία οδηγεί τους συγγραφείς να συμπεράνουν «προσαρμογές φαίνεται να είναι χρήσιμο, αλλά fallible διορθώσεις. . . "
Conrad and Schober (2008) παρέχει ένα επεξεργασμένο όγκο τίτλο Θεωρώντας τη Συνέντευξη Έρευνα του μέλλοντος, και αντιμετωπίζει πολλά από τα θέματα σε αυτή την ενότητα. Couper (2011) ασχολείται με παρόμοια θέματα, και Schober et al. (2015) προσφέρει ένα ωραίο παράδειγμα για το πώς οι μέθοδοι συλλογής δεδομένων που είναι προσαρμοσμένες σε μια νέα ρύθμιση μπορεί να οδηγήσει σε υψηλότερη ποιότητα των δεδομένων.
Για ένα άλλο ενδιαφέρον παράδειγμα χρησιμοποιώντας Facebook apps για τις έρευνες των κοινωνικών επιστημών, δείτε Bail (2015) .
Για περισσότερες συμβουλές σχετικά με κάνει έρευνες μια ευχάριστη και πολύτιμη εμπειρία για τους συμμετέχοντες, δείτε την εργασία σχετικά με την Μέθοδο Προσαρμοσμένα Σχεδιασμού (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) προσφέρει μια θεραπεία μήκος βιβλίο της οικολογικής στιγμιαία αξιολόγησης και σχετικές μεθόδους.
Judson (2007) περιγράφεται η διαδικασία συνδυασμού έρευνες και διοικητικών δεδομένων ως «ενσωμάτωση πληροφοριών», συζητά κάποια πλεονεκτήματα αυτής της προσέγγισης, και προσφέρει μερικά παραδείγματα.
Ένας άλλος τρόπος που οι ερευνητές μπορούν να χρησιμοποιήσουν την ψηφιακή ίχνη και τα διοικητικά δεδομένα είναι ένα δειγματοληπτικό πλαίσιο για τα άτομα με συγκεκριμένα χαρακτηριστικά. Ωστόσο, έχουν πρόσβαση σε αυτά τα αρχεία που πρέπει να χρησιμοποιείται ένα πλαίσιο δειγματοληψίας μπορεί επίσης να δημιουργήσει ζητήματα που σχετίζονται με την προστασία της ιδιωτικής ζωής (Beskow, Sandler, and Weinberger 2006) .
Όσον αφορά ενισχύεται ζητώντας, η προσέγγιση αυτή δεν είναι τόσο νέα όσο φαίνεται από το πώς έχω περιγράψει. Αυτή η προσέγγιση έχει βαθιές συνδέσεις σε τρεις μεγάλες περιοχές στις στατιστικές-μοντέλο που βασίζεται σε μετα-διαστρωμάτωση (Little 1993) , τον καταλογισμό (Rubin 2004) , και τα μικρά εκτίμηση περιοχή (Rao and Molina 2015) . Είναι, επίσης, σχετίζεται με την χρήση των υποκατάστατων μεταβλητών στην ιατρική έρευνα (Pepe 1992) .
Εκτός από τα θέματα δεοντολογίας όσον αφορά την πρόσβαση στα δεδομένα ψηφιακών ιχνών, ενισχύεται ζητώντας θα μπορούσε επίσης να χρησιμοποιηθεί για να συναχθεί ευαίσθητα χαρακτηριστικά που οι άνθρωποι δεν μπορούσαν να επιλέξουν να αποκαλύψουν σε μια έρευνα (Kosinski, Stillwell, and Graepel 2013) .
Οι εκτιμήσεις του κόστους και του χρόνου στην Blumenstock, Cadamuro, and On (2015) αναφέρονται περισσότερο σε μεταβλητό κόστος, το κόστος ενός επιπλέον έρευνα-και δεν περιλαμβάνουν τα πάγια έξοδα, όπως το κόστος για τον καθαρισμό και την επεξεργασία των δεδομένων κλήσεων. Σε γενικές γραμμές, ενισχύεται ζητούμενη θα έχει πιθανώς υψηλό πάγιο κόστος και χαμηλό μεταβλητό κόστος παρόμοιο με ψηφιακή πειράματα (βλέπε κεφάλαιο 4). Περισσότερες λεπτομέρειες για τα στοιχεία που χρησιμοποιούνται σε Blumenstock, Cadamuro, and On (2015) του χαρτιού είναι Blumenstock and Eagle (2010) και Blumenstock and Eagle (2012) . Προσεγγίσεις από πολλαπλές imputuation (Rubin 2004) θα μπορούσε να βοηθήσει την αβεβαιότητα σύλληψης σε εκτιμήσεις από ενισχυμένο ζητούμενη. Αν ερευνητές που κάνουν ενισχύεται ζητώντας μόνο νοιάζονται για συνολικά μετράει, όχι γνωρίσματα σε ατομικό επίπεδο, τότε οι προσεγγίσεις στο King and Lu (2008) και Hopkins and King (2010) μπορεί να είναι χρήσιμη. Για περισσότερα σχετικά με τις μηχανικής μάθησης προσεγγίσεις στο Blumenstock, Cadamuro, and On (2015) , βλέπε James et al. (2013) (περισσότερες εισαγωγικές) ή Hastie, Tibshirani, and Friedman (2009) (πιο προχωρημένη). Ένα άλλο δημοφιλές βιβλίο μηχανικής μάθησης είναι Murphy (2012) .
Όσον αφορά εμπλουτίζεται ζητώντας, τα αποτελέσματα σε Ansolabehere και Hersh (2012) άρθρωση σε δύο βασικά βήματα: 1) την ικανότητα της Catalist να συνδυάσει πολλές διαφορετικές πηγές δεδομένων για την παραγωγή μιας ακριβούς κύριο αρχείο δεδομένων και 2) την ικανότητα της Catalist να συνδέσει τα στοιχεία της έρευνας για την κύριο αρχείο δεδομένων του. Ως εκ τούτου, Ansolabehere και Hersh ελέγχει κάθε ένα από αυτά τα βήματα προσεκτικά.
Για να δημιουργήσετε το κύριο αρχείο δεδομένων, Catalist συνδυάζει και εναρμονίζει πληροφορίες από πολλές διαφορετικές πηγές, συμπεριλαμβανομένων: πολλαπλές εγγραφές ψήφου στιγμιότυπα από κάθε κράτος, τα δεδομένα από το Εθνικό Αλλαγή Διεύθυνσης Μητρώου του ταχυδρομείου, καθώς και δεδομένα από άλλες μη καθορισμένα εμπορικά παρόχους. Οι φρικιαστικές λεπτομέρειες για το πώς συμβαίνει όλο αυτό τον καθαρισμό και τη συγχώνευση είναι πέρα από το πεδίο αυτού του βιβλίου, αλλά αυτή η διαδικασία, δεν έχει σημασία πόσο προσεκτικοί, θα διαδίδονται τα σφάλματα στις αρχικές πηγές δεδομένων και θα εισαγάγει λάθη. Παρά το γεγονός ότι Catalist ήταν διατεθειμένη να συζητήσει την επεξεργασία των δεδομένων και παρέχουν κάποια από τα ανεπεξέργαστα δεδομένα του, ήταν απλά αδύνατο για τους ερευνητές να επανεξετάσει το σύνολο του αγωγού δεδομένων Catalist. Αντίθετα, οι ερευνητές ήταν σε μια κατάσταση όπου το αρχείο δεδομένων Catalist είχε κάποια άγνωστη, και ίσως άγνωστο, το ποσό του σφάλματος. Αυτή είναι μια σοβαρή ανησυχία γιατί ένας κριτικός μπορεί να εικάζουν ότι οι μεγάλες διαφορές μεταξύ των εκθέσεων έρευνας σχετικά με τις ΥΣΕΑ και τη συμπεριφορά στο κεντρικό αρχείο δεδομένων Catalist προκλήθηκαν από σφάλματα στο αρχείο κύριο δεδομένων, όχι από τη δήλωση ανακριβών στοιχείων από τους ερωτηθέντες.
Ansolabehere και Hersh πήρε δύο διαφορετικές προσεγγίσεις για την αντιμετώπιση της ποιότητας των δεδομένων ανησυχία. Πρώτον, εκτός από την σύγκριση των αυτο-αναφερόμενη ψήφου ψηφοφορία στο κύριο αρχείο Catalist, οι ερευνητές συνέκριναν επίσης αυτο-αναφερόμενη κόμμα, τη φυλή, την κατάσταση εγγραφής ψηφοφόρων (π.χ., εγγεγραμμένοι ή μη εγγεγραμμένοι) και η μέθοδος ψηφοφορίας (π.χ., στο πρόσωπο, απών ψηφοφορία, κλπ) σε εκείνες τις τιμές που βρίσκονται στις βάσεις δεδομένων Catalist. Γι 'αυτούς τους τέσσερις δημογραφικές μεταβλητές, οι ερευνητές βρήκαν πολύ υψηλότερα επίπεδα της συμφωνίας μεταξύ της έκθεσης έρευνας και των δεδομένων στο κύριο αρχείο Catalist από ό, τι για την ψηφοφορία. Έτσι, το κύριο αρχείο δεδομένων Catalist φαίνεται να έχει πληροφορίες υψηλής ποιότητας για τα χαρακτηριστικά εκτός από την ψηφοφορία, γεγονός που υποδηλώνει ότι δεν είναι κακή συνολική ποιότητα. Δεύτερον, εν μέρει, χρησιμοποιώντας δεδομένα από Catalist, Ansolabehere και Hersh αναπτύχθηκαν τρία διαφορετικά μέτρα της ποιότητας των αρχείων νομών ψήφου, και βρήκαν ότι το εκτιμώμενο ποσοστό πάνω-αναφορά της ψηφοφορίας ήταν ουσιαστικά άσχετο με κάποια από αυτά τα μέτρα ποιότητας των δεδομένων, ένα εύρημα που υποδηλώνουν ότι τα υψηλά ποσοστά υπερβολικής πληροφόρησης δεν οδηγείται από νομούς με ασυνήθιστα χαμηλή ποιότητα των δεδομένων.
Με δεδομένη τη δημιουργία αυτού του αρχείου ψηφοφορίας master, η δεύτερη πηγή των πιθανών σφαλμάτων που συνδέουν τις εγγραφές της έρευνας σε αυτό. Για παράδειγμα, εάν αυτή η σύνδεση γίνεται σωστά θα μπορούσε να οδηγήσει σε μια υπερ-εκτίμηση της διαφοράς μεταξύ των αναφερόμενων και επικυρώνονται ψήφου συμπεριφορά (Neter, Maynes, and Ramanathan 1965) . Εάν κάθε πρόσωπο που είχε ένα σταθερό, μοναδικό αναγνωριστικό που ήταν και στις δύο πηγές δεδομένων, τότε η σύνδεση θα είναι ασήμαντο. Στις ΗΠΑ και οι περισσότερες άλλες χώρες, ωστόσο, δεν υπάρχει καθολική αναγνωριστικό. Περαιτέρω, ακόμη και αν υπήρχαν τέτοιες ένα αναγνωριστικό άνθρωποι θα μπορούσε πιθανότατα να είναι διστακτικοί να το παρέχετε στην έρευνα οι ερευνητές! Έτσι, Catalist έπρεπε να κάνει τη σύνδεση, χρησιμοποιώντας ατελή αναγνωριστικά, σε αυτή την περίπτωση τέσσερα κομμάτια των πληροφοριών για κάθε εναγόμενο: το όνομα, το φύλο, το έτος γέννησης και τη διεύθυνση κατοικίας. Για παράδειγμα, Catalist έπρεπε να αποφασίσει αν η Homie J Simpson στα ΥΣΕΑ ήταν το ίδιο πρόσωπο με τον Όμηρο Jay Simpson στο κεντρικό αρχείο δεδομένων τους. Στην πράξη, αντιστοίχιση είναι μια δύσκολη και μπερδεμένη διαδικασία, και, για να κάνουν τα πράγματα χειρότερα για τους ερευνητές, Catalist θεωρείται αντίστοιχη τεχνική του να είναι ιδιόκτητα.
Προκειμένου να επικυρωθούν οι αλγόριθμοι αντιστοίχισης, που επικαλείται δύο προκλήσεις. Κατ 'αρχάς, Catalist συμμετείχε σε ένα αντίστοιχο διαγωνισμό που οργανώθηκε από έναν ανεξάρτητο, τρίτο μέρος: το MITRE Corporation. MITRE παρέχεται σε όλους τους συμμετέχοντες δύο θορυβώδεις αρχεία δεδομένων να συνδυαστούν και διαφορετικές ομάδες διαγωνίστηκαν για να επιστρέψετε στην MITRE την καλύτερη αντιστοίχιση. Επειδή το ίδιο MITRE ήξερε τη σωστή αντιστοίχιση ήταν σε θέση να σκοράρει τις ομάδες. Από τις 40 εταιρείες που διαγωνίστηκαν, Catalist ήρθε στη δεύτερη θέση. Αυτό το είδος των ανεξάρτητων, από τρίτους την αξιολόγηση της αποκλειστικής τεχνολογίας είναι αρκετά σπάνιο και εξαιρετικά πολύτιμο? θα πρέπει να μας δώσει την εμπιστοσύνη ότι οι διαδικασίες matching Catalist είναι ουσιαστικά σε state-of-the-art. Αλλά είναι το state-of-the-art αρκετά καλό; Εκτός από αυτή την αντιστοίχιση του ανταγωνισμού, Ansolabehere και Hersh δημιούργησαν τη δική τους ταιριάζουν πρόκληση για Catalist. Από μια προηγούμενη έργου, Ansolabehere και Hersh είχε συγκεντρώσει στοιχεία ψηφοφόρων από τη Φλόριντα. Έδωσαν ορισμένα από αυτά τα αρχεία με μερικά από τα χωράφια τους αποκρυβεί να Catalist και, στη συνέχεια, σε σύγκριση με τις εκθέσεις Catalist της στους τομείς αυτούς με τις πραγματικές τους αξίες. Ευτυχώς, οι εκθέσεις Catalist ήταν κοντά στις παρακράτηση τιμές, υποδεικνύοντας ότι Catalist θα μπορούσε να ταιριάξει με τη μερική εγγραφές των ψηφοφόρων σε κεντρικό αρχείο δεδομένων τους. Οι δύο αυτές προκλήσεις, μία από τρίτους και μία από Ansolabehere και Hersh, να μας δώσει περισσότερη εμπιστοσύνη στους αλγόριθμους που ταιριάζουν Catalist, ακόμα κι αν δεν μπορεί να ελέγξει την ακριβή εφαρμογή τους εαυτούς μας.
Έχουν υπάρξει πολλές προηγούμενες προσπάθειες για την επικύρωση της ψηφοφορίας. Για μια επισκόπηση της βιβλιογραφίας, βλ Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , και Hanmer, Banks, and White (2014) .
Είναι σημαντικό να σημειωθεί ότι, αν και σε αυτή την περίπτωση οι ερευνητές είχαν ενθαρρυνθεί από την ποιότητα των δεδομένων από Catalist, άλλες αξιολογήσεις των εμπορικών πωλητές ήταν λιγότερο ενθουσιώδεις. Οι ερευνητές έχουν διαπιστώσει κακή ποιότητα όταν τα δεδομένα από μια έρευνα σε καταναλωτή-αρχείο από Marketing Group Συστήματα (η οποία συγχωνεύθηκε μαζί δεδομένα από τρεις παρόχους: Acxiom, Experian, και InfoUSA) (Pasek et al. 2014) . Δηλαδή, το αρχείο δεδομένων δεν ταιριάζει με τις απαντήσεις της έρευνας που οι ερευνητές αναμένεται να είναι σωστή, το αρχείο που είχε δεδομένα που λείπουν για ένα μεγάλο αριθμό ερωτήσεων, καθώς και των αγνοουμένων μοτίβο δεδομένων συσχετίστηκε με αναφερόμενη τιμή έρευνα (με άλλα λόγια, τα δεδομένα που λείπουν ήταν συστηματική και όχι τυχαία).
Για περισσότερες πληροφορίες σχετικά με ρεκόρ σύνδεση μεταξύ ερευνών και διοικητικών στοιχείων, δείτε Sakshaug and Kreuter (2012) και Schnell (2013) . Για περισσότερες πληροφορίες σχετικά με ρεκόρ σύνδεση σε γενικές γραμμές, δείτε Dunn (1946) και Fellegi and Sunter (1969) (ιστορικά) και Larsen and Winkler (2014) (σύγχρονο). Παρόμοιες προσεγγίσεις έχουν επίσης αναπτυχθεί στην επιστήμη των υπολογιστών με τα ονόματα όπως deduplication δεδομένων, π.χ. ταυτοποίηση, όνομα που ταιριάζουν, εις διπλούν ανίχνευση, και εις διπλούν ανίχνευση ρεκόρ (Elmagarmid, Ipeirotis, and Verykios 2007) . Υπάρχουν, επίσης, προστασία της ιδιωτικής ζωής διατηρώντας προσεγγίσεις για την εγγραφή σύνδεση που δεν απαιτούν τη μετάδοση προσωπικές πληροφορίες (Schnell 2013) . Ερευνητές στο Facebook αναπτύξει μια διαδικασία για τη σύνδεση probabilisticsly αρχεία τους με τη συμπεριφορά των ψηφοφοριών (Jones et al. 2013) ? Αυτή η σύνδεση έγινε για να αξιολογήσει ένα πείραμα που θα σας πω σχετικά με το Κεφάλαιο 4 (Bond et al. 2012) .
Ένα άλλο παράδειγμα που συνδέει μια κοινωνική έρευνα μεγάλης κλίμακας για την κυβέρνηση διοικητικά αρχεία προέρχεται από την υγεία και τη Συνταξιοδότηση Έρευνα και την Υπηρεσία Κοινωνικής Ασφάλισης. Για περισσότερες πληροφορίες σχετικά με αυτή τη μελέτη, συμπεριλαμβανομένων των πληροφοριών σχετικά με τη διαδικασία συναίνεσης, δείτε Olson (1996) και Olson (1999) .
Η διαδικασία συνδυασμού πολλές πηγές διοικητικών αρχείων σε ένα κύριο αρχείο δεδομένων, τη διαδικασία που Catalist εργαζόμενοι-είναι κοινή στις στατιστικές υπηρεσίες ορισμένων εθνικών κυβερνήσεων. Δύο ερευνητές από Στατιστική Υπηρεσία της Σουηδίας έχουν γράψει ένα λεπτομερές βιβλίο σχετικά με το θέμα (Wallgren and Wallgren 2007) . Για ένα παράδειγμα αυτής της προσέγγισης σε ένα μόνο κομητεία στις Ηνωμένες Πολιτείες (Olmstead County, Minnesota? Σπίτι της Mayo Clinic), βλέπε Sauver et al. (2011) . Για περισσότερες πληροφορίες σχετικά με τα σφάλματα που μπορούν να εμφανιστούν σε διοικητικά αρχεία, δείτε Groen (2012) .