Σε αυτό το παράρτημα, θα περιγράψω κάποιες από τις ιδέες από το κεφάλαιο σε μια ελαφρώς πιο μαθηματική μορφή. Ο στόχος εδώ είναι να σας βοηθήσει να εξοικειωθείτε με το συμβολαιογραφικό και μαθηματικό πλαίσιο που χρησιμοποιούν οι ερευνητές των ερευνών έτσι ώστε να μπορέσετε να μεταβείτε σε κάποιο πιο τεχνικό υλικό γραμμένο σε αυτά τα θέματα. Θα ξεκινήσω εισάγοντας δειγματοληψία πιθανότητας, στη συνέχεια θα προχωρήσουμε στη δειγματοληψία πιθανότητας με μη απόκριση και, τέλος, στη δειγματοληψία μη πιθανότητας.
Δυνατότητα δειγματοληψίας
Ως τρέχον παράδειγμα, ας εξετάσουμε το στόχο της εκτίμησης του ποσοστού ανεργίας στις Ηνωμένες Πολιτείες. Έστω \(U = \{1, \ldots, k, \ldots, N\}\) ο πληθυσμός στόχος και ας \(y_k\) από την τιμή της μεταβλητής έκβασης για το πρόσωπο \(k\) . Σε αυτό το παράδειγμα \(y_k\) είναι αν το άτομο \(k\) είναι άνεργο. Τέλος, ας \(F = \{1, \ldots, k, \ldots, N\}\) είναι ο πληθυσμός πλαίσιο, το οποίο για λόγους απλότητας υποτίθεται ότι είναι η ίδια με τον πληθυσμό-στόχο.
Βασικός σχεδιασμός δειγματοληψίας είναι η απλή τυχαία δειγματοληψία χωρίς αντικατάσταση. Σε αυτή την περίπτωση, κάθε άτομο είναι εξίσου πιθανό να συμπεριληφθεί στο δείγμα \(s = \{1, \ldots, i, \ldots, n\}\) . Όταν τα δεδομένα συλλέγονται με αυτό το σχέδιο δειγματοληψίας, οι ερευνητές μπορούν να εκτιμήσουν το ποσοστό ανεργίας του πληθυσμού με το μέσο δείγμα:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
όπου \(\bar{y}\) είναι το ποσοστό ανεργίας στον πληθυσμό και \(\hat{\bar{y}}\) είναι η εκτίμηση του ποσοστού ανεργίας (η \(\hat{ }\) είναι κοινώς χρησιμοποιείται για να υποδείξει έναν εκτιμητή).
Στην πραγματικότητα, οι ερευνητές σπάνια χρησιμοποιούν απλή τυχαία δειγματοληψία χωρίς αντικατάσταση. Για διάφορους λόγους (ένας από τους οποίους θα περιγράψω σε μια στιγμή), οι ερευνητές συχνά δημιουργούν δείγματα με άνισες πιθανότητες συμπερίληψης. Για παράδειγμα, οι ερευνητές ενδέχεται να επιλέξουν άτομα στη Φλόριντα με υψηλότερη πιθανότητα εμφάνισης από ό, τι οι άνθρωποι στην Καλιφόρνια. Σε αυτή την περίπτωση, ο μέσος δείκτης (eq. 3.1) μπορεί να μην είναι ένας καλός εκτιμητής. Αντ 'αυτού, όταν υπάρχουν άνισες πιθανότητες ενσωμάτωσης, οι ερευνητές χρησιμοποιούν
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
όπου \(\hat{\bar{y}}\) είναι η εκτίμηση του ποσοστού ανεργίας και \(\pi_i\) είναι η πιθανότητα συμπερίληψης του ατόμου \(i\) . Ακολουθώντας την τυπική πρακτική, θα καλέσω τον εκτιμητή στο eq. 3.2 τον εκτιμητή Horvitz-Thompson. Ο εκτιμητής Horvitz-Thompson είναι εξαιρετικά χρήσιμος διότι οδηγεί σε αμερόληπτες εκτιμήσεις για οποιοδήποτε σχέδιο δειγματοληψίας πιθανότητας (Horvitz and Thompson 1952) . Επειδή ο εκτιμητής Horvitz-Thompson εμφανίζεται τόσο συχνά, είναι χρήσιμο να παρατηρήσετε ότι μπορεί να ξαναγραφεί ως
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
όπου \(w_i = 1 / \pi_i\) . Ως εξ. 3.3 αποκαλύπτει ότι ο εκτιμητής Horvitz-Thompson είναι ένας σταθμισμένος δείκτης όπου τα βάρη αντιστρέφονται αντιστρόφως με την πιθανότητα επιλογής. Με άλλα λόγια, όσο λιγότερο πιθανό είναι να συμπεριληφθεί ένα άτομο στο δείγμα, τόσο μεγαλύτερο βάρος θα πρέπει να έχει ο καθένας στην εκτίμηση.
Όπως περιγράφηκε προηγουμένως, οι ερευνητές συχνά δοκιμάζουν άτομα με άνισες πιθανότητες συμπερίληψης. Ένα παράδειγμα σχεδίου που μπορεί να οδηγήσει σε άνισες πιθανότητες συμπερίληψης είναι η στρωματοποιημένη δειγματοληψία , η οποία είναι σημαντική για την κατανόηση επειδή σχετίζεται στενά με τη διαδικασία εκτίμησης που ονομάζεται μετα-στρωματοποίηση . Σε μια στρωματοποιημένη δειγματοληψία, ένας ερευνητής χωρίζει τον πληθυσμό-στόχο σε \(H\) αμοιβαία αποκλειόμενες και εξαντλητικές ομάδες. Αυτές οι ομάδες ονομάζονται στρώματα και υποδεικνύονται ως \(U_1, \ldots, U_h, \ldots, U_H\) . Σε αυτό το παράδειγμα, τα στρώματα είναι κράτη. Τα μεγέθη των ομάδων υποδεικνύονται ως \(N_1, \ldots, N_h, \ldots, N_H\) . Ένας ερευνητής μπορεί να θελήσει να χρησιμοποιήσει τη στρωματοποιημένη δειγματοληψία για να βεβαιωθεί ότι έχει αρκετούς ανθρώπους σε κάθε κράτος για να κάνει εκτιμήσεις ανεργίας σε επίπεδο κράτους.
Μόλις ο πληθυσμός χωριστεί σε στρώματα , υποθέστε ότι ο ερευνητής επιλέγει ένα απλό τυχαίο δείγμα χωρίς αντικατάσταση του μεγέθους \(n_h\) , ανεξάρτητα από κάθε στρώμα. Περαιτέρω, υποθέστε ότι όλοι οι επιλεγμένοι στο δείγμα γίνονται ερωτώμενοι (θα ασχοληθώ με την μη απάντηση στην επόμενη ενότητα). Σε αυτή την περίπτωση, η πιθανότητα συμπερίληψης είναι
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Επειδή αυτές οι πιθανότητες μπορεί να διαφέρουν από άνθρωπο σε άνθρωπο, κατά την εκτίμηση από αυτό το σχέδιο δειγματοληψίας, οι ερευνητές πρέπει να βαρύνουν κάθε ερωτώμενο από το αντίστροφο της πιθανότητας συμπερίληψής τους χρησιμοποιώντας τον εκτιμητή Horvitz-Thompson (eq.3.2).
Παρόλο που ο εκτιμητής Horvitz-Thompson είναι αμερόληπτος, οι ερευνητές μπορούν να παράγουν ακριβέστερες (δηλαδή χαμηλότερες διαφορές) εκτιμήσεις συνδυάζοντας το δείγμα με τις βοηθητικές πληροφορίες . Μερικοί άνθρωποι το βρίσκουν εκπληκτικό ότι αυτό ισχύει ακόμα και όταν υπάρχει τέλεια εκτελεσθείσα δειγματοληψία πιθανότητας. Αυτές οι τεχνικές που χρησιμοποιούν βοηθητικές πληροφορίες είναι ιδιαίτερα σημαντικές επειδή, όπως θα δείξω αργότερα, οι βοηθητικές πληροφορίες είναι κρίσιμες για την πραγματοποίηση εκτιμήσεων από δείγματα πιθανότητας με μη απόκριση και από δείγματα μη πιθανότητας.
Μια κοινή τεχνική για τη χρήση βοηθητικών πληροφοριών είναι η μετα-στρωματοποίηση . Φανταστείτε, για παράδειγμα, ότι ένας ερευνητής γνωρίζει τον αριθμό των ανδρών και των γυναικών σε κάθε μία από τις 50 πολιτείες. μπορούμε να δηλώσουμε αυτά τα μεγέθη ομάδας ως \(N_1, N_2, \ldots, N_{100}\) . Για να συνδυάσουμε αυτές τις βοηθητικές πληροφορίες με το δείγμα, ο ερευνητής μπορεί να διαιρέσει το δείγμα σε ομάδες \(H\) (στην περίπτωση αυτή 100), να κάνει μια εκτίμηση για κάθε ομάδα και στη συνέχεια να δημιουργήσει έναν σταθμισμένο μέσο όρο αυτών των ομάδων:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Κατά προσέγγιση, ο εκτιμητής στο ισ. 3.5 είναι πιθανό να είναι πιο ακριβής επειδή χρησιμοποιεί τις γνωστές πληροφορίες για τον πληθυσμό \(N_h\) -για να διορθώσει τις εκτιμήσεις αν γίνει επιλογή ενός μη ισορροπημένου δείγματος. Ένας τρόπος για να το σκεφτούμε είναι ότι η μετα-στρωματοποίηση είναι σαν να προσεγγίζουμε τη στρωματοποίηση αφού τα δεδομένα έχουν ήδη συλλεχθεί.
Συμπερασματικά, στην ενότητα αυτή περιγράφονται μερικά σχέδια δειγματοληψίας: απλή τυχαία δειγματοληψία χωρίς αντικαταστάσεις, δειγματοληψία με άνιση πιθανότητα και στρωματοποιημένη δειγματοληψία. Περιέγραψε επίσης δύο βασικές ιδέες για την εκτίμηση: τον εκτιμητή Horvitz-Thompson και τη μετα-στρωματοποίηση. Για έναν πιο επίσημο ορισμό των δειγματοληπτικών δειγμάτων πιθανότητας, βλέπε κεφάλαιο 2 των Särndal, Swensson, and Wretman (2003) . Για μια πιο επίσημη και πλήρη αντιμετώπιση της στρωματοποιημένης δειγματοληψίας, βλ. Παράγραφο 3.7 των Särndal, Swensson, and Wretman (2003) . Για μια τεχνική περιγραφή των ιδιοτήτων του εκτιμητή Horvitz-Thompson, βλέπε Horvitz and Thompson (1952) , Overton and Stehman (1995) , ή το τμήμα 2.8 του @ sarndal_model_2003. Για μια πιο επίσημη αντιμετώπιση της μεταστρωματοποίησης, βλ. Holt and Smith (1979) , Smith (1991) , Little (1993) ή τμήμα 7.6 των Särndal, Swensson, and Wretman (2003) .
Δυνατότητα δειγματοληψίας με μη ανταπόκριση
Σχεδόν όλες οι πραγματικές έρευνες έχουν μη ανταπόκριση. δηλαδή, δεν απαντούν σε κάθε ερώτηση όλοι οι πληθυσμοί του δείγματος. Υπάρχουν δύο κύριοι τύποι μη απαντήσεων: το στοιχείο nonresponse και το unit nonresponse . Στο στοιχείο nonresponse, κάποιοι ερωτηθέντες δεν απαντούν σε κάποια στοιχεία (π.χ., μερικές φορές οι ερωτηθέντες δεν θέλουν να απαντήσουν σε ερωτήσεις που θεωρούν ευαίσθητες). Στη μονάδα nonresponse, ορισμένα άτομα που επιλέγονται για τον δείγμα πληθυσμού δεν ανταποκρίνονται καθόλου στην έρευνα. Οι δύο συνηθέστεροι λόγοι για τη μη ανάκτηση μονάδας είναι ότι δεν μπορεί να έλθει σε επαφή το άτομο που υποβλήθηκε σε δειγματοληψία και επικοινωνεί με το δείγμα, αλλά αρνείται να συμμετάσχει. Σε αυτή την ενότητα, θα επικεντρωθώ στη μονάδα μη απάντησης. οι αναγνώστες που ενδιαφέρονται για το στοιχείο nonresponse θα πρέπει να δουν το Little and Rubin (2002) .
Οι ερευνητές συχνά σκέφτονται τις έρευνες με μη απάντηση μονάδας ως διαδικασία δειγματοληψίας δύο σταδίων. Στο πρώτο στάδιο, ο ερευνητής επιλέγει ένα δείγμα \(s\) έτσι ώστε κάθε άτομο να έχει πιθανότητα συμπερίληψης \(\pi_i\) (όπου \(0 < \pi_i \leq 1\) ). Στη συνέχεια, στο δεύτερο στάδιο, οι άνθρωποι που επιλέγονται στο δείγμα ανταποκρίνονται με πιθανότητα \(\phi_i\) (όπου \(0 < \phi_i \leq 1\) ). Αυτή η διαδικασία δύο σταδίων έχει ως αποτέλεσμα το τελικό σύνολο ερωτηθέντων \(r\) . Μια σημαντική διαφορά μεταξύ αυτών των δύο σταδίων είναι ότι οι ερευνητές ελέγχουν τη διαδικασία επιλογής του δείγματος, αλλά δεν ελέγχουν ποιοι από τους εν λόγω δείκτες γίνονται ερωτηθέντες. Κάνοντας αυτές τις δύο διαδικασίες μαζί, η πιθανότητα ότι κάποιος θα είναι ένας ερωτώμενος είναι
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Για λόγους απλότητας, θα εξετάσω την περίπτωση όπου το αρχικό σχέδιο δείγματος είναι απλή τυχαία δειγματοληψία χωρίς αντικατάσταση. Εάν ένας ερευνητής επιλέγει ένα δείγμα μεγέθους \(n_s\) που αποδίδει \(n_r\) ερωτηθέντες και εάν ο ερευνητής αγνοεί τη μη απάντηση και χρησιμοποιεί τον μέσο όρο των ερωτηθέντων, τότε η προκατάληψη της εκτίμησης θα είναι:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
όπου το \(cor(\phi, y)\) είναι ο πληθυσμιακός συσχετισμός μεταξύ της τάσης απόκρισης και του αποτελέσματος (π.χ., κατάσταση ανεργίας), \(S(y)\) \(S(\phi)\) είναι η τυπική απόκλιση του πληθυσμού της τάσης απόκρισης, και \(\bar{\phi}\) είναι η μέση τάση απάντησης του πληθυσμού (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 δείχνει ότι η μη απάντηση δεν θα εισαγάγει μεροληψία εάν πληρούται οποιαδήποτε από τις ακόλουθες προϋποθέσεις:
Δυστυχώς, καμία από αυτές τις συνθήκες δεν φαίνεται πιθανή. Φαίνεται απίθανο ότι δεν θα υπάρξει μεταβολή του καθεστώτος απασχόλησης ή ότι δεν θα υπάρξει μεταβολή στις τάσεις απόκρισης. Έτσι, ο βασικός όρος στο eq. 3.7 είναι η συσχέτιση: \(cor(\phi, y)\) . Για παράδειγμα, αν οι άνεργοι είναι πιο πιθανό να απαντήσουν, τότε το εκτιμώμενο ποσοστό απασχόλησης θα είναι προκατειλημμένο προς τα πάνω.
Το κόλπο για την πραγματοποίηση εκτιμήσεων όταν δεν υπάρχει απόκριση είναι η χρήση βοηθητικών πληροφοριών. Για παράδειγμα, ένας τρόπος με τον οποίο μπορείτε να χρησιμοποιήσετε βοηθητικές πληροφορίες είναι μετά τη στρωματοποίηση (ανάκληση της έκτασης 3.5 από την παραπάνω). Αποδεικνύεται ότι η προκατάληψη του εκτιμητή μετά τη στρωματοποίηση είναι:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
όπου \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , και \(\bar{\phi}^{(h)}\) ορίζονται ως ανωτέρω αλλά περιορίζονται σε άτομα στην ομάδα \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Έτσι, η συνολική προκατάληψη θα είναι μικρή εάν η μεροληψία σε κάθε ομάδα μετά τη στρωματοποίηση είναι μικρή. Υπάρχουν δύο τρόποι που μου αρέσει να σκεφτόμαστε να κάνουμε τη μικρή προκατάληψη σε κάθε ομάδα μετά τη στρωματοποίηση. Πρώτον, θέλετε να προσπαθήσετε να διαμορφώσετε ομοιογενείς ομάδες όπου υπάρχει μικρή διακύμανση στην τάση απόκρισης ( \(S(\phi)^{(h)} \approx 0\) ) και το αποτέλεσμα ( \(S(y)^{(h)} \approx 0\) ). Δεύτερον, θέλετε να δημιουργήσετε ομάδες όπου οι άνθρωποι που βλέπετε είναι σαν τους ανθρώπους που δεν βλέπετε ( \(cor(\phi, y)^{(h)} \approx 0\) ). Σύγκριση ισοδ. 3.7 και ισοδ. Το 3.8 βοηθά να αποσαφηνιστεί πότε η μετα-στρωματοποίηση μπορεί να μειώσει την προκατειλημμένη από την μη ανταπόκριση.
Συμπερασματικά, αυτή η ενότητα έδωσε ένα μοντέλο δειγματοληψίας πιθανότητας με μη απόκριση και έδειξε τη μεροληψία που μπορεί να εισαγάγει η μη απάντηση τόσο χωρίς όσο και με προσαρμογές μετά τη στρωματοποίηση. Bethlehem (1988) προσφέρει μια παραδοχή της προκατάληψης που προκαλείται από τη μη ανταπόκριση για γενικότερα σχέδια δειγματοληψίας. Για περισσότερες πληροφορίες σχετικά με τη χρήση της μεταστρωματοποίησης για να προσαρμόσετε τη μη απόκριση, βλ. Smith (1991) και Gelman and Carlin (2002) . Η μετα-στρωματοποίηση αποτελεί μέρος μιας γενικότερης οικογένειας τεχνικών που ονομάζονται εκτιμητές βαθμονόμησης, βλ. Zhang (2000) για μια θεραπεία μήκους άρθρου και Särndal and Lundström (2005) για θεραπεία με βάση το βιβλίο. Για περισσότερες πληροφορίες σχετικά με άλλες μεθόδους στάθμισης για προσαρμογή για μη ανταπόκριση, βλ. Kalton and Flores-Cervantes (2003) , Brick (2013) και Särndal and Lundström (2005) .
Μη δειγματοληψία μη πιθανότητας
Η δειγματοληψία μη πιθανότητας περιλαμβάνει μια τεράστια ποικιλία σχεδίων (Baker et al. 2013) . Εστιάζοντας συγκεκριμένα στο δείγμα των χρηστών του Xbox από τους Wang και συνεργάτες (W. Wang et al. 2015) , μπορείτε να σκεφτείτε αυτό το είδος δείγματος ως εκείνο όπου το βασικό μέρος του σχεδιασμού δειγματοληψίας δεν είναι το \(\pi_i\) η πιθανότητα συμπερίληψης της έρευνας από τον ερευνητή), αλλά η \(\phi_i\) (οι τάσεις απάντησης που καθοδηγούνται από τους ερωτώμενους). Φυσικά, αυτό δεν είναι ιδανικό επειδή το \(\phi_i\) είναι άγνωστο. Όμως, όπως έδειξε ο Wang και οι συνάδελφοί του, αυτό το είδος opt-in δείγμα - ακόμη και από ένα πλαίσιο δειγματοληψίας με τεράστιο σφάλμα κάλυψης - δεν χρειάζεται να είναι καταστροφικό εάν ο ερευνητής έχει καλές βοηθητικές πληροφορίες και ένα καλό στατιστικό μοντέλο για την αντιμετώπιση αυτών των προβλημάτων.
Bethlehem (2010) επεκτείνει πολλές από τις παραπάνω παραδοχές σχετικά με τη μετα-στρωματοποίηση για να συμπεριλάβει και τα σφάλματα μη ανταπόκρισης και κάλυψης. Εκτός από τις μετα-διαστρωμάτωση, άλλες τεχνικές για την εργασία με μη πιθανότητας δείγματα, και την πιθανότητα δείγματα με σφάλματα κάλυψης και μη απόκριση, περιλαμβάνουν ταιριάζουν δείγματος (Ansolabehere and Rivers 2013; ??? ) , τάση στάθμιση βαθμολογία (Lee 2006; Schonlau et al. 2009) και βαθμονόμηση (Lee and Valliant 2009) . Ένα κοινό θέμα μεταξύ αυτών των τεχνικών είναι η χρήση των βοηθητικών πληροφοριών.