In questa appendice, descriverò alcune delle idee del capitolo in una forma leggermente più matematica. L'obiettivo qui è quello di aiutarti a familiarizzare con la notazione e il quadro matematico utilizzato dai ricercatori del sondaggio in modo che tu possa passare a un po 'di materiale più tecnico scritto su questi argomenti. Inizierò introducendo il campionamento probabilistico, quindi passerò al campionamento probabilistico con non risposta e infine al campionamento non probabilistico.
Campionamento di probabilità
Come esempio, consideriamo l'obiettivo di stimare il tasso di disoccupazione negli Stati Uniti. Sia \(U = \{1, \ldots, k, \ldots, N\}\) sia la popolazione target e lasciamo \(y_k\) il valore della variabile di risultato per la persona \(k\) . In questo esempio \(y_k\) è se la persona \(k\) è disoccupata. Infine, sia \(F = \{1, \ldots, k, \ldots, N\}\) sia la popolazione di frame, che per semplicità si presume essere la stessa della popolazione target.
Un semplice campionamento è semplice campionamento casuale senza sostituzione. In questo caso, è probabile che ogni persona sia inclusa nel campione \(s = \{1, \ldots, i, \ldots, n\}\) . Quando i dati vengono raccolti con questo modello di campionamento, i ricercatori possono stimare il tasso di disoccupazione della popolazione con la media campionaria:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
dove \(\bar{y}\) è il tasso di disoccupazione nella popolazione e \(\hat{\bar{y}}\) è la stima del tasso di disoccupazione (il \(\hat{ }\) è comunemente usato per indicare uno stimatore).
In realtà, i ricercatori utilizzano raramente semplici campionamenti casuali senza sostituzione. Per una serie di ragioni (una delle quali descriverò tra un momento), i ricercatori spesso creano campioni con probabilità di inclusione ineguali. Ad esempio, i ricercatori potrebbero selezionare persone in Florida con maggiore probabilità di inclusione rispetto alle persone in California. In questo caso, la media campionaria (eq. 3.1) potrebbe non essere un buon stimatore. Invece, quando ci sono ineguali probabilità di inclusione, i ricercatori usano
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
dove \(\hat{\bar{y}}\) è la stima del tasso di disoccupazione e la probabilità di inclusione di \(\pi_i\) è la persona \(i\) . Seguendo la pratica standard, chiamerò lo stimatore in eq. 3.2 lo stimatore di Horvitz-Thompson. Lo stimatore Horvitz-Thompson è estremamente utile perché porta a stime imparziali per qualsiasi progetto di campionamento probabilistico (Horvitz and Thompson 1952) . Poiché lo stimatore di Horvitz-Thompson viene visualizzato così frequentemente, è utile notare che può essere riscritto come
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
dove \(w_i = 1 / \pi_i\) . Come eq. 3.3 rivela, lo stimatore di Horvitz-Thompson è una media ponderata del campione in cui i pesi sono inversamente correlati alla probabilità di selezione. In altre parole, minore è la probabilità che una persona venga inclusa nel campione, maggiore è il peso che la persona dovrebbe ottenere nella stima.
Come descritto in precedenza, i ricercatori spesso campionano persone con probabilità disuguali di inclusione. Un esempio di un progetto che può portare a probabilità disuguali di inclusione è il campionamento stratificato , che è importante capire perché è strettamente correlato alla procedura di stima chiamata post-stratificazione . Nel campionamento stratificato, un ricercatore suddivide la popolazione target in gruppi \(H\) reciprocamente esclusivi ed esaustivi. Questi gruppi sono chiamati strati e sono indicati come \(U_1, \ldots, U_h, \ldots, U_H\) . In questo esempio, gli strati sono stati. Le dimensioni dei gruppi sono indicate come \(N_1, \ldots, N_h, \ldots, N_H\) . Un ricercatore potrebbe voler utilizzare il campionamento stratificato per assicurarsi di avere abbastanza persone in ogni stato per fare stime a livello statale della disoccupazione.
Una volta che la popolazione è stata suddivisa in strati , si supponga che il ricercatore selezioni un semplice campione casuale senza sostituzione della dimensione \(n_h\) , indipendentemente da ogni strato. Inoltre, supponiamo che tutti quelli selezionati nel campione diventino un rispondente (gestirò la mancata risposta nella prossima sezione). In questo caso, la probabilità di inclusione è
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Poiché queste probabilità possono variare da persona a persona, quando si effettua una stima da questo modello di campionamento, i ricercatori devono ponderare ciascun rispondente per l'inverso della loro probabilità di inclusione utilizzando lo stimatore di Horvitz-Thompson (eq 3.2).
Anche se lo stimatore di Horvitz-Thompson è imparziale, i ricercatori possono produrre stime più accurate (ad esempio, varianza inferiore) combinando il campione con informazioni ausiliarie . Alcune persone trovano sorprendente che questo sia vero anche quando il campionamento probabilistico è perfettamente eseguito. Queste tecniche che utilizzano informazioni ausiliarie sono particolarmente importanti perché, come mostrerò in seguito, le informazioni ausiliarie sono fondamentali per effettuare stime da campioni di probabilità con non risposta e da campioni non probabilistici.
Una tecnica comune per utilizzare le informazioni ausiliarie è la post-stratificazione . Immagina, per esempio, che un ricercatore conosca il numero di uomini e donne in ciascuno dei 50 stati; possiamo indicare queste dimensioni di gruppo come \(N_1, N_2, \ldots, N_{100}\) . Per combinare queste informazioni ausiliarie con il campione, il ricercatore può dividere il campione in gruppi \(H\) (in questo caso 100), fare una stima per ciascun gruppo e quindi creare una media ponderata di questi gruppi:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Approssimativamente, lo stimatore in eq. 3.5 è probabile che sia più accurato perché utilizza le informazioni sulla popolazione nota - la \(N_h\) - per correggere le stime se si verifica che un campione sbilanciato sia selezionato. Un modo per pensarci è che la post-stratificazione è come approssimare la stratificazione dopo che i dati sono già stati raccolti.
In conclusione, questa sezione ha descritto alcuni progetti di campionamento: semplice campionamento casuale senza sostituzioni, campionamento con probabilità disuguale e campionamento stratificato. Ha anche descritto due idee principali sulla stima: lo stimatore di Horvitz-Thompson e la post-stratificazione. Per una definizione più formale dei progetti di campionamento probabilistico, vedere il capitolo 2 di Särndal, Swensson, and Wretman (2003) . Per un trattamento più formale e completo del campionamento stratificato, vedere la sezione 3.7 di Särndal, Swensson, and Wretman (2003) . Per una descrizione tecnica delle proprietà dello stimatore Horvitz-Thompson, vedere Horvitz and Thompson (1952) , Overton and Stehman (1995) , o la sezione 2.8 di @ sarndal_model_2003. Per un trattamento più formale della post-stratificazione, vedi Holt and Smith (1979) , Smith (1991) , Little (1993) , o la sezione 7.6 di Särndal, Swensson, and Wretman (2003) .
Campionamento di probabilità con non risposta
Quasi tutte le indagini reali hanno una mancata risposta; cioè, non tutti nella popolazione campione rispondono a ogni domanda. Esistono due tipi principali di mancata risposta: non risposta articolo e non risposta unitaria . Nella mancata risposta all'articolo, alcuni rispondenti non rispondono ad alcuni elementi (ad esempio, a volte gli intervistati non vogliono rispondere alle domande che considerano sensibili). Nella mancata risposta unitaria, alcune persone selezionate per la popolazione campione non rispondono affatto al sondaggio. I due motivi più comuni per mancata risposta dell'unità sono che la persona campionata non può essere contattata e la persona campione viene contattata ma rifiuta di partecipare. In questa sezione, mi concentrerò sulla non risposta unitaria; i lettori interessati alla mancata risposta dell'articolo dovrebbero vedere Little and Rubin (2002) .
I ricercatori spesso pensano a sondaggi con unità di non risposta come un processo di campionamento a due stadi. Nella prima fase, il ricercatore seleziona un esempio \(s\) tale che ogni persona abbia una probabilità di inclusione \(\pi_i\) (dove \(0 < \pi_i \leq 1\) ). Quindi, nella seconda fase, le persone che sono selezionate nell'esempio rispondono con probabilità \(\phi_i\) (dove \(0 < \phi_i \leq 1\) ). Questo processo a due stadi genera l'ultimo gruppo di rispondenti \(r\) . Un'importante differenza tra queste due fasi è che i ricercatori controllano il processo di selezione del campione, ma non controllano quali di queste persone campionate diventano rispondenti. Mettendo insieme questi due processi, la probabilità che qualcuno sia un rispondente è
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Per ragioni di semplicità, prenderò in considerazione il caso in cui la progettazione del campione originale è semplice campionamento casuale senza sostituzione. Se un ricercatore seleziona un campione di dimensione \(n_s\) che restituisce \(n_r\) rispondenti, e se il ricercatore ignora la mancata risposta e utilizza la media dei rispondenti, allora la distorsione di stima sarà:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
dove \(cor(\phi, y)\) è la correlazione di popolazione tra la propensione alla risposta e il risultato (ad esempio, lo stato di disoccupazione), \(S(y)\) è la deviazione standard della popolazione del risultato (ad esempio, la disoccupazione stato), \(S(\phi)\) è la deviazione standard della popolazione della propensione alla risposta, e \(\bar{\phi}\) è la propensione alla risposta media della popolazione (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 mostra che la mancata risposta non introdurrà pregiudizi se si verifica una delle seguenti condizioni:
Sfortunatamente, nessuna di queste condizioni sembra probabile. Sembra poco plausibile che non ci saranno variazioni nello stato occupazionale o che non ci saranno variazioni nelle propensioni di risposta. Quindi, il termine chiave nell'eq. 3.7 è la correlazione: \(cor(\phi, y)\) . Ad esempio, se le persone sono quelle che hanno maggiori probabilità di risposta da parte dei disoccupati, il tasso di occupazione stimato sarà inclinato verso l'alto.
Il trucco per fare delle stime quando non c'è risposta è usare le informazioni ausiliarie. Ad esempio, un modo in cui è possibile utilizzare le informazioni ausiliarie è la post-stratificazione (richiamo eq. 3.5 dall'alto). Si scopre che il pregiudizio dello stimatore post-stratificazione è:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
dove \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , e \(\bar{\phi}^{(h)}\) sono definiti come sopra ma limitati alle persone nel gruppo \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Quindi, la distorsione generale sarà piccola se il pregiudizio in ogni gruppo di post-stratificazione è piccolo. Ci sono due modi in cui mi piace pensare di rendere il bias piccolo in ogni gruppo post-stratificazione. Per prima cosa, vuoi provare a formare gruppi omogenei dove c'è poca variazione nella propensione alla risposta ( \(S(\phi)^{(h)} \approx 0\) ) e il risultato ( \(S(y)^{(h)} \approx 0\) ). Secondo, vuoi formare gruppi in cui le persone che vedi sono come le persone che non vedi ( \(cor(\phi, y)^{(h)} \approx 0\) ). Confrontando l'eq. 3.7 e eq. 3.8 aiuta a chiarire quando la post-stratificazione può ridurre il pregiudizio causato dalla mancata risposta.
In conclusione, questa sezione ha fornito un modello per il campionamento probabilistico con non risposta e ha mostrato il pregiudizio che la mancata risposta può introdurre sia senza che con aggiustamenti post-stratificazione. Bethlehem (1988) offre una derivazione del pregiudizio causato dalla non risposta per progetti di campionamento più generali. Per ulteriori informazioni sull'uso della post-stratificazione per adattarsi alla mancata risposta, vedere Smith (1991) e Gelman and Carlin (2002) . La post-stratificazione fa parte di una più generale famiglia di tecniche chiamate stimatori di calibrazione, si veda Zhang (2000) per un trattamento a lunghezza di articolo e Särndal and Lundström (2005) per un trattamento a lunghezza di libro. Per ulteriori informazioni su altri metodi di ponderazione per l'adeguamento alla Kalton and Flores-Cervantes (2003) , vedere Kalton and Flores-Cervantes (2003) , Brick (2013) e Särndal and Lundström (2005) .
Campionamento non probabilistico
Il campionamento non probabilistico include un'enorme varietà di design (Baker et al. 2013) . Concentrandosi in particolare sul campione di utenti Xbox di Wang e colleghi (W. Wang et al. 2015) , si può pensare a quel tipo di campione come quello in cui la parte chiave del progetto di campionamento non è il \(\pi_i\) ( la probabilità di inclusione guidata dal ricercatore) ma i \(\phi_i\) (le propensioni di risposta guidate dai rispondenti). Naturalmente, questo non è l'ideale perché i \(\phi_i\) sono sconosciuti. Ma, come hanno dimostrato Wang e colleghi, questo tipo di campione opt-in - anche da una struttura di campionamento con un enorme errore di copertura - non deve essere catastrofico se il ricercatore ha buone informazioni ausiliarie e un buon modello statistico per spiegare questi problemi.
Bethlehem (2010) estende molte delle derivazioni sopra descritte sulla post-stratificazione per includere sia la mancata risposta che gli errori di copertura. Oltre alla post-stratificazione, altre tecniche per lavorare con campioni non probabilistici e campioni di probabilità con errori di copertura e (Ansolabehere and Rivers 2013; ??? ) includono la corrispondenza campione (Ansolabehere and Rivers 2013; ??? ) , ponderazione del punteggio di propensione (Lee 2006; Schonlau et al. 2009) e calibrazione (Lee and Valliant 2009) . Un tema comune tra queste tecniche è l'uso delle informazioni ausiliarie.