Non tutti i campioni non probabilità sono uguali. Possiamo aggiungere un maggiore controllo sul front-end.
L'approccio Wang e colleghi hanno utilizzato per stimare l'esito delle elezioni presidenziali degli Stati Uniti 2012 dipendeva interamente sul miglioramento di analisi dei dati. Cioè, hanno raccolto il maggior numero di risposte che potevano e poi hanno tentato di ri-peso loro. Una strategia complementare per lavorare con campionamento non probabilistico è quello di avere un maggiore controllo sul processo di raccolta dati.
L'esempio più semplice di un processo di campionamento non probabilistico parzialmente controllata è campionamento per quote, una tecnica che risale ai primi giorni di ricerca di indagine. Nel campionamento per quote, i ricercatori si dividono la popolazione in diversi gruppi (ad esempio, giovani uomini, giovani donne, ecc) e le quote poi fissati per il numero di persone da selezionare in ciascun gruppo. Gli intervistati sono stati selezionati in maniera casuale fino a quando il ricercatore ha incontrato la loro quota in ciascun gruppo. A causa delle quote, il campione risultante appare più come la popolazione target di quanto sarebbe vero il contrario, ma perché le probabilità di inclusione sono sconosciute molti ricercatori sono scettici di campionamento per quote. In realtà, il campionamento delle quote è stata una delle cause della "Dewey sconfigge Truman" errore nelle 1948 elezioni presidenziali degli Stati Uniti. Poiché fornisce un certo controllo sul processo di campionamento, tuttavia, si può vedere come campionamento contingente può avere alcuni vantaggi su un insieme di dati completamente incontrollata.
Andando oltre campionamento per quote, approcci più moderni per il controllo del processo di campionamento non probabilistico sono ora possibili. Un tale approccio si chiama corrispondenza del campione, ed è utilizzato da alcuni fornitori commerciali panel on-line. Nella sua forma più semplice, corrispondente campione richiede due fonti di dati: 1) un registro completo della popolazione e 2) un grande pannello di volontari. È importante che i volontari non devono essere un campione probabilistico da qualsiasi popolazione; a sottolineare che non ci sono i requisiti per la selezione nel pannello, lo chiamerò un pannello di sporco. Inoltre, sia il registro della popolazione e il pannello sporca devono includere alcune informazioni ausiliarie su ogni persona, in questo esempio, io considero l'età e il sesso, ma in situazioni realistiche queste informazioni supplementari potrebbero essere molto più dettagliata. Il trucco di corrispondenza del campione è quello di selezionare i campioni da un pannello di sporco in un modo che produce campioni che assomigliano campioni probabilistici.
corrispondenza del campione inizia quando un campione probabilistico simulato è preso dal registro della popolazione; questo campione simulato diventa un campione mirato. Poi, sulla base delle informazioni ausiliarie, casi del campione di destinazione sono abbinati a persone nel pannello sporco per formare un campione corrispondente. Ad esempio, se vi è una femmina di 25 anni nel campione di destinazione, allora il ricercatore trova una donna di 25 anni dal pannello sporco nel campione corrispondente. Infine, i membri del campione abbinato vengono intervistati per produrre la serie finale dei rispondenti.
Sebbene il campione corrispondente aspetto dell'esempio di destinazione, è importante ricordare che il campione non è abbinato un campione probabilistico. campioni misti possono corrispondere solo il campione mirato sulle informazioni ausiliarie noto (ad esempio, età e sesso), ma non sulle caratteristiche non misurati. Ad esempio, se la gente sul pannello sporco tendono ad essere più poveri, dopo tutto, uno dei motivi per aderire ad un pannello di indagine è quello di guadagnare denaro, allora anche se il campione abbinato si presenta come il campione mirato in termini di età e di sesso che avrà ancora una polarizzazione verso i poveri. La magia della vera campionamento probabilistico è per escludere problemi su entrambe le caratteristiche misurate e non misurati (un punto che è coerente con la nostra discussione di corrispondenza per l'inferenza causale da studi osservazionali nel Capitolo 2).
In pratica, la corrispondenza del campione dipende da avere un ampio e diversificato pannello desiderosi di completare le indagini e, quindi, è fatto principalmente da società che possono permettersi di sviluppare e mantenere un tale pannello. Inoltre, in pratica, ci possono essere problemi con abbinamento (a volte una buona partita per qualcuno nel campione di destinazione non esiste sul pannello) e di non risposta (a volte le persone del campione abbinato rifiutano di partecipare al sondaggio). Quindi, in pratica, i ricercatori fanno corrispondenza campione anche eseguire qualche tipo di aggiustamento post-stratificazione per fare delle stime.
E 'difficile fornire garanzie teorici utili sulla corrispondenza del campione, ma in pratica può funzionare bene. Ad esempio, Stephen Ansolabehere e Brian Schaffner (2014) hanno confrontato tre indagini parallele di circa 1.000 persone condotte nel 2010 utilizzando tre diversi campionamento e intervistando metodi: posta, telefono, e un pannello di Internet tramite corrispondenza del campione e la regolazione post-stratificazione. Le stime dei tre approcci erano abbastanza simili a quelle stimate da parametri di riferimento di alta qualità come la Current Population Survey (CPS) e il National Health Interview Survey (NHIS). Più in particolare, sia le indagini su Internet e posta elettronica erano fuori da una media di 3 punti percentuali e l'indagine telefono era spento di 4 punti percentuali. Errori questo grandi sono circa quello che ci si aspetterebbe da campioni di circa 1.000 persone. Anche se, nessuno di questi modi di produzione di dati sostanzialmente migliore, sia Internet e telefono sondaggio (che ha avuto giorni o settimane) sono stati sostanzialmente più veloce di campo rispetto al sondaggio di posta (che ha avuto otto mesi), e l'indagine di Internet, che ha usato corrispondenza del campione, era più economico rispetto alle altre due modalità.
In conclusione, gli scienziati sociali e statistici sono incredibilmente scettici di inferenze da questi campioni non probabilistici, in parte perché sono associati con alcuni fallimenti imbarazzanti di ricerca di indagine, come il sondaggio Literary Digest. In parte, sono d'accordo con questo scetticismo: campioni non probabilistici non rettificati sono suscettibili di produrre stime cattivi. Tuttavia, se i ricercatori possono regolare per le distorsioni nel processo di campionamento (ad esempio, post-stratificazione) o controllare il processo di campionamento in qualche modo (per esempio, campione di corrispondenza), possono produrre stime migliori, e anche le stime di qualità sufficiente per la maggior parte scopi. Naturalmente, sarebbe meglio fare un campionamento probabilistico perfettamente eseguito, ma che non sembra essere un'opzione realistica.
Entrambi i campioni non probabilistici e campioni di probabilità variano nella loro qualità, e attualmente è probabile il caso che la maggior parte delle stime da campioni probabilistici sono più affidabili rispetto alle stime da campioni non probabilistici. Ma, ancora oggi, le stime da campioni non probabilistici ben condotti sono probabilmente meglio di stime da campioni probabilistici mal condotti. Inoltre, campioni non probabilistici sono sostanzialmente più conveniente. Così, sembra che la probabilità vs campionamento non probabilistico offre un costo qualità trade-off (Figura 3.6). Guardando al futuro, mi aspetto che le stime da campioni non probabilistici ben fatto diventerà migliore e più economico. Inoltre, a causa della rottura di sondaggi telefonici di rete fissa e aumento dei tassi di mancata risposta, mi aspetto che i campioni di probabilità diventeranno più costosi e di qualità inferiore. A causa di queste tendenze di lungo periodo, penso che il campionamento non probabilistico diventerà sempre più importante nel terzo era di ricerca di indagine.