Τυχαία δείγματα και δείγματα μη πιθανότητας δεν είναι τόσο διαφορετικά στην πράξη? και στις δύο περιπτώσεις, είναι όλα σχετικά με τα βάρη.
Δειγματοληψίας είναι θεμελιώδους σημασίας για την έρευνα έρευνα. Ερευνητές σχεδόν ποτέ να ζητήσει από τις ερωτήσεις τους σε όλους στον πληθυσμό-στόχο τους. Από αυτή την άποψη, οι έρευνες δεν είναι μοναδικά. Οι περισσότερες έρευνες, με τον ένα ή τον άλλο τρόπο, περιλαμβάνει δειγματοληψία. Μερικές φορές αυτή η δειγματοληψία γίνεται ρητά από τον ερευνητή? άλλες φορές συμβαίνει σιωπηρά. Για παράδειγμα, ένας ερευνητής που τρέχει ένα εργαστηριακό πείραμα για προπτυχιακούς φοιτητές στο πανεπιστήμιο της έχει επίσης λάβει ένα δείγμα. Έτσι, η δειγματοληψία είναι ένα πρόβλημα που έρχεται όλο αυτό το βιβλίο. Στην πραγματικότητα, ένα από τα πιο κοινά προβλήματα που ακούω για ψηφιακές πηγές ηλικία των δεδομένων είναι "αυτές δεν είναι αντιπροσωπευτικές.» Όπως θα δούμε στην ενότητα αυτή, η ανησυχία αυτή είναι τόσο λιγότερο σοβαρή και πιο λεπτή από ό, τι πολλοί σκεπτικιστές συνειδητοποιήσει. Στην πραγματικότητα, θα υποστηρίξω ότι η όλη ιδέα της «αντιπροσωπευτικότητας» δεν είναι χρήσιμο για να σκεφτόμαστε τυχαία δείγματα και μη πιθανότητας. Αντ 'αυτού, το κλειδί είναι να σκεφτούμε πώς συλλέχθηκαν τα δεδομένα και πως οποιαδήποτε προκαταλήψεις σε αυτή τη συλλογή δεδομένων μπορεί να αναιρεθεί κατά την πραγματοποίηση εκτιμήσεων.
Επί του παρόντος, η κυρίαρχη θεωρητική προσέγγιση για την εκπροσώπηση είναι τυχαία δειγματοληψία. Όταν τα δεδομένα που συλλέχθηκαν με τη μέθοδο δειγματοληψίας πιθανότητα που έχει τέλεια εκτέλεση, οι ερευνητές είναι σε θέση να σταθμίσουμε τα δεδομένα τους με βάση τον τρόπο που συλλέχθηκαν για να κάνει αμερόληπτες εκτιμήσεις σχετικά με τον πληθυσμό-στόχο. Ωστόσο, τέλειο τυχαία δειγματοληψία ουσιαστικά ποτέ δεν συμβαίνει στον πραγματικό κόσμο. Υπάρχουν συνήθως δύο κύρια προβλήματα 1) διαφορές μεταξύ του πληθυσμού στόχου και του πληθυσμού πλαίσιο και 2) μη-απόκρισης (αυτά είναι ακριβώς τα προβλήματα που κατέστρεψε τη δημοσκόπηση Λογοτεχνικό Digest). Έτσι, αντί να σκεφτόμαστε τυχαία δειγματοληψία ως ρεαλιστικό μοντέλο για το τι πραγματικά συμβαίνει στον κόσμο, είναι καλύτερα να σκεφτείτε τυχαία δειγματοληψία ως χρήσιμη, αφηρημένο μοντέλο, μοιάζει πολύ με τον τρόπο που οι φυσικοί σκεφτούμε μία άτρωτη μπάλα τροχαίο κάτω από ένα απείρως μακρύ αναβαθμίδα.
Η εναλλακτική λύση για την τυχαία δειγματοληψία είναι η δειγματοληψία μη πιθανότητας. Η κύρια διαφορά μεταξύ της πιθανότητας και δειγματοληψία χωρίς πιθανότητα είναι ότι με πιθανότητα δειγματοληψίας σε όλους του πληθυσμού έχει γνωστή πιθανότητα ένταξης. Υπάρχουν, στην πραγματικότητα, πολλές ποικιλίες δειγματοληψία χωρίς πιθανότητα, και αυτές οι μέθοδοι συλλογής δεδομένων γίνονται όλο και πιο κοινά στην ψηφιακή εποχή. Αλλά, δειγματοληψία χωρίς πιθανότητα έχει μια τρομερή φήμη μεταξύ των κοινωνικών επιστημόνων και στατιστικολόγους. Στην πραγματικότητα, δειγματοληψία χωρίς πιθανότητα συνδέεται με μερικές από τις πιο δραματικές αποτυχίες των ερευνητών της έρευνας, όπως το φιάσκο Λογοτεχνικό Digest (συζητήθηκε νωρίτερα) και την εσφαλμένη πρόβλεψη για τις προεδρικές εκλογές του 1948 ( "Dewey Ήττες Τρούμαν») ΗΠΑ (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Ωστόσο, είναι η κατάλληλη στιγμή να επανεξετάσει δειγματοληψία χωρίς πιθανότητα για δύο λόγους. Πρώτον, όπως τυχαία δείγματα έχουν γίνει όλο και πιο δύσκολο να γίνει στην πράξη, η γραμμή μεταξύ των δειγμάτων πιθανότητας και δειγμάτων μη πιθανότητας είναι δυσδιάκριτα. Όταν υπάρχουν υψηλά ποσοστά μη απάντησης (όπως υπάρχουν σε πραγματικό έρευνες τώρα), η πραγματική πιθανότητα εγκλείστων για τους ερωτηθέντες δεν είναι γνωστές, και έτσι, τυχαία δείγματα και δείγματα μη πιθανότητας δεν είναι τόσο διαφορετικές όσο πολλοί ερευνητές πιστεύουν. Στην πραγματικότητα, όπως θα δούμε παρακάτω, οι δύο προσεγγίσεις βασίζονται ουσιαστικά την ίδια μέθοδο εκτίμησης: μετα-διαστρωμάτωση. Δεύτερον, υπήρξαν πολλές εξελίξεις όσον αφορά τη συλλογή και την ανάλυση των δειγμάτων μη πιθανότητας. Αυτές οι μέθοδοι είναι αρκετά διαφορετικές από τις μεθόδους που προκάλεσαν προβλήματα στο παρελθόν ότι νομίζω ότι είναι λογικό να σκεφτείτε τους ως «δειγματοληψία χωρίς πιθανότητα 2.0." Δεν πρέπει να έχουμε μια παράλογη αποστροφή σε μεθόδους μη πιθανότητας, λόγω σφαλμάτων που συνέβησαν πολύ καιρό πριν.
Στη συνέχεια, προκειμένου να καταστεί αυτό το επιχείρημα πιο συγκεκριμένη, εγώ θα επανεξετάσει πρότυπο τυχαία δειγματοληψία και στάθμισης (Ενότητα 3.4.1). Η βασική ιδέα είναι ότι το πώς θα συγκεντρώνονται τα δεδομένα σας θα πρέπει να επηρεάσει το πώς να κάνετε εκτιμήσεις. Συγκεκριμένα, αν ο καθένας δεν έχει την ίδια πιθανότητα ένταξης, τότε όλοι θα πρέπει να έχουν το ίδιο βάρος. Με άλλα λόγια, αν η δειγματοληψία σας δεν είναι δημοκρατική, τότε οι εκτιμήσεις σας δεν θα πρέπει να είναι δημοκρατική. Μετά την εξέταση στάθμιση, θα περιγράψω δύο προσεγγίσεις για δειγματοληψία χωρίς πιθανότητα: ένα που επικεντρώνεται στην στάθμιση για την αντιμετώπιση του προβλήματος των τυχαία συλλογή δεδομένων (Ενότητα 3.4.2), και ένα που προσπαθεί να τοποθετήσει περισσότερο έλεγχο για το πώς τα δεδομένα είναι συλλέγονται (Ενότητα 3.4.3). Τα επιχειρήματα στο κυρίως κείμενο θα εξηγηθεί παρακάτω με λέξεις και εικόνες? αναγνώστες που θα ήθελαν μια πιο μαθηματική επεξεργασία πρέπει επίσης να δείτε το τεχνικό προσάρτημα.