Mostres de probabilitat i les mostres no probabilístiques no són tan diferents a la pràctica; en ambdós casos, es tracta dels pesos.
El mostreig és fonamental per a la investigació d'enquesta. Els investigadors gairebé mai demanen a les seves preguntes a tothom en la seva població objectiu. En aquest sentit, les enquestes no són únics. La majoria d'investigacions, d'una manera o altra, consisteix en un mostreig. De vegades, aquest mostreig es realitza de forma explícita per l'investigador; altres vegades es passa de forma implícita. Per exemple, un investigador que dirigeix un experiment de laboratori en els estudiants universitaris en la seva universitat també ha pres una mostra. Per tant, el mostreig és un problema que sorgeix en aquest llibre. De fet, una de les preocupacions més comuns que escolto sobre les fonts era digital de dades és "no són representatius." Com veurem més endavant en aquesta secció, aquesta preocupació és tant menys greus i més subtil que molts escèptics es donen compte. De fet, vaig a argumentar que tot el concepte de "representativitat" no és útil per pensar en mostres probabilístiques i no probabilístiques. En canvi, la clau és pensar sobre com es van recollir les dades i com els biaixos en la recollida de dades que es pot desfer l'hora de fer estimacions.
En l'actualitat, l'enfocament teòric dominant de representació és el mostreig probabilístic. Quan les dades es recullen amb un mètode de mostreig probabilístic que s'ha executat a la perfecció, els investigadors són capaços de ponderar les seves dades en funció de la forma en què es van recollir per fer estimacions objectives sobre la població objectiu. No obstant això, el mostreig probabilístic perfecta, bàsicament, mai succeeix en el món real. En general, hi ha dos problemes principals 1) les diferències entre la població objectiu i la població marc i 2) la manca de resposta (aquests són exactament els problemes que van destruir el sondeig resum literari). Per tant, en lloc de pensar de mostreig probabilístic com un model realista del que realment passa al món, és millor pensar en el mostreig probabilístic com un model útil, abstracta, igual que la forma en què els físics pensen en una bola sense fricció rodant per un temps infinitament llarg la rampa.
L'alternativa al mostreig probabilístic és el mostreig no probabilístic. La principal diferència entre la probabilitat i mostreig no probabilístic és que amb una probabilitat de mostreig de tots els membres de la població té una probabilitat coneguda de la inclusió. Hi ha, de fet, moltes varietats de mostreig no probabilístic, i aquests mètodes de recol·lecció de dades són cada vegada més comuns en l'era digital. No obstant això, el mostreig no probabilístic té una terrible reputació entre els científics socials i estadístiques. De fet, el mostreig no probabilístic s'associa amb alguns dels fracassos més espectaculars dels investigadors de l'estudi, com ara el fiasco resum literari (discutit anteriorment) i la predicció incorrecta sobre les eleccions presidencials dels Estats Units de 1948 ( "Dewey derrota a Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
No obstant això, ha arribat el moment de reconsiderar el mostreig no probabilístic per dues raons. En primer lloc, com a mostres de probabilitat s'han tornat cada vegada més difícil de fer en la pràctica, la línia divisòria entre les mostres probabilístiques i les mostres no probabilístiques està difuminant. Quan hi ha una alta taxa de no resposta (com els hi ha en enquestes reals ara), la probabilitat real de les inclusions dels enquestats no són coneguts, i per tant, les mostres probabilístiques i les mostres no probabilístiques no són tan diferents com molts investigadors creuen. De fet, com veurem a continuació, els dos enfocaments bàsicament es basen en el mateix mètode d'estimació: postestratificación. En segon lloc, hi ha hagut molts avenços en la recollida i anàlisi de mostres no probabilístiques. Aquests mètodes són força diferents dels mètodes que van causar problemes en el passat que crec que té sentit pensar en ells com "mostreig no probabilístic 2.0." No hem de tenir una aversió irracional als mètodes no probabilístics a causa dels errors que van ocórrer fa molt temps.
A continuació, per tal de fer que aquest argument més concret, vaig a revisar el mostreig probabilístic estàndard i ponderació (Secció 3.4.1). La idea clau és que la forma en què ha recopilat les seves dades hauria d'afectar la forma de realitzar les estimacions. En particular, si tothom no té la mateixa probabilitat d'inclusió, llavors tothom hauria de no tenir el mateix pes. En altres paraules, si el mostreig no és democràtica, que consta de les estimacions no ha de ser democràtic. Després de revisar ponderació, descriuré dos enfocaments per al mostreig no probabilístic: un que se centra en la ponderació de lidiar amb el problema de les dades recollides a l'atzar (Secció 3.4.2), i un que tracta de posar un major control sobre la forma en què les dades són recollit (Secció 3.4.3). Els arguments en el text principal s'explicaran a continuació amb paraules i imatges; lectors que desitgin un tractament més matemàtic també han de consultar l'apèndix tècnic.