Campioni probabilistici e campioni non probabilistici non sono così diversi nella pratica; in entrambi i casi, è tutta una questione di pesi.
Il campionamento è fondamentale per esaminare la ricerca. I ricercatori hanno quasi mai porre le loro domande a tutti nella loro popolazione target. A questo proposito, le indagini non sono univoci. Gran parte della ricerca, in un modo o nell'altro, comporta campionamento. A volte questo campionamento viene fatto esplicitamente dal ricercatore; altre volte succede implicitamente. Ad esempio, un ricercatore che esegue un esperimento di laboratorio sugli studenti universitari in sua università ha anche prelevato un campione. Così, il campionamento è un problema che si presenta in questo libro. In effetti, una delle preoccupazioni più comuni che sento sulle fonti età digitali dei dati è "non sono rappresentative". Come vedremo in questa sezione, questa preoccupazione è sia meno grave e più sottile di molti scettici si rendono conto. In realtà, io sostengo che l'intero concetto di "rappresentatività" non è utile per pensare campioni probabilistici e non probabilistici. Al contrario, la chiave è quello di pensare a come i dati sono stati raccolti e come eventuali pregiudizi in cui la raccolta dei dati può essere annullata quando si effettua stime.
Attualmente, l'approccio teorico dominante rappresentazione è campioni probabilistici. Quando i dati vengono raccolti con un metodo di campionamento probabilistico che è stato eseguito perfettamente, i ricercatori sono in grado di pesare i propri dati in base al modo in cui sono stati raccolti per fare delle stime imparziali su popolazione target. Tuttavia, il campionamento probabilità perfetta fondamentalmente non accade mai nel mondo reale. Ci sono in genere due problemi principali 1) differenze tra la popolazione target e la popolazione telaio e 2) non-risposta (questi sono esattamente i problemi che ha rovinato il sondaggio Literary Digest). Così, piuttosto che pensare di campionamento probabilistico come un modello realistico di ciò che accade realmente nel mondo, è meglio pensare a campionamento probabilistico come un modello astratto utile, proprio come il modo in cui i fisici pensano a una palla di attrito che rotola giù un infinitamente lungo rampa.
L'alternativa di campionamento probabilità è campionamento non probabilistico. La principale differenza tra probabilità e campionamento non probabilistico è che con probabilità campionamento tutti nella popolazione ha una probabilità nota di inclusione. Vi sono, infatti, molte varietà di campionamento non probabilistico, e questi metodi di raccolta dei dati stanno diventando sempre più comuni nell'era digitale. Ma, il campionamento non probabilistico ha una pessima reputazione tra gli scienziati sociali e statistici. In realtà, il campionamento non probabilistico è associato con alcuni dei fallimenti più drammatici di ricercatori di indagine, come il fiasco Literary Digest (discusso in precedenza) e la previsione errata sulle elezioni presidenziali americane del 1948 ( "Dewey Sconfitte Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Tuttavia, è il momento giusto di riconsiderare campionamento non probabilistico per due motivi. In primo luogo, come campioni probabilistici sono diventati sempre più difficile da fare, in pratica, la linea tra campioni probabilistici e campioni non probabilistici è la sfocatura. Quando ci sono alti tassi di mancata risposta (come ci sono nelle indagini reale ora), la probabilità reale di inclusioni per gli intervistati non sono noti, e, quindi, campioni probabilistici e campioni non probabilistici non sono così diversi come molti ricercatori ritengono. In realtà, come vedremo in seguito, entrambi gli approcci fondamentalmente si basano sullo stesso metodo di stima: post-stratificazione. In secondo luogo, ci sono stati molti sviluppi nella raccolta e l'analisi di campioni non probabilistici. Questi metodi sono abbastanza differenti dai metodi che hanno causato problemi in passato che credo abbia senso pensare a loro come "non-probabilità di campionamento 2.0." Non dobbiamo avere un'avversione irrazionale metodi non probabilistici a causa di errori che si sono verificati tanto tempo fa.
Successivamente, al fine di rendere questo argomento più concreto, io rivedere campionamento probabilistico normale e ponderazione (sezione 3.4.1). L'idea chiave è che come raccolta dei dati dovrebbe avere un impatto come si fanno stime. In particolare, se non tutti hanno la stessa probabilità di inclusione, quindi tutti dovrebbero non hanno lo stesso peso. In altre parole, se il campionamento non è democratico, allora le vostre stime non dovrebbero essere democratica. Dopo aver esaminato ponderazione, descriverò due approcci al campionamento non probabilistico: uno che si concentra sulla ponderazione per affrontare il problema dei dati a casaccio raccolti (sezione 3.4.2), e uno che cerca di mettere più controllo su come i dati sono raccolte (Sezione 3.4.3). Gli argomenti nel testo principale verranno illustrate di seguito con le parole e le immagini; i lettori che desiderano un trattamento più matematica dovrebbero consultare gli allegati tecnici.