Vzorky pravdepodobnostné a vzorky non-pravdepodobnostné nie sú tak odlišné v praxi; V oboch prípadoch je to všetko o závažia.
Odber vzoriek je základom pre výskum prieskumu. Výskumníci takmer nikdy pýtať na ich otázky pre každého v ich cieľovej populácie. V tomto ohľade prieskumy nie sú jedinečné. Väčšina výskumov, v tak či onak, zahŕňa odber vzoriek. Niekedy to odber vzoriek sa vykonáva explicitne výskumného pracovníka; inokedy sa to stane implicitne. Napríklad, výskumník, ktorý beží laboratórne experiment na vysokoškolských študentov v jej univerzity tiež vziať vzorku. Tak vzorkovanie je problém, ktorý prichádza v tejto knihe. V skutočnosti je jedným z najčastejších obáv, že počujem o digitálnom veku zdrojov dát je "nie sú reprezentatívne." Ako uvidíme v tejto časti je táto obava je tak menej vážna a jemnejšie, než si mnohí skeptici realizovať. V skutočnosti, budem tvrdiť, že celý koncept "reprezentatívnosti" nie je užitočné pre premýšľanie o pravdepodobnosti a non-pravdepodobnostné vzoriek. Namiesto toho, kľúč je premýšľať o tom, ako boli údaje zhromažďované a ako prípadné zaujatosti v tomto zberu dát možno vrátiť späť pri vykonávaní odhadov.
V súčasnej dobe dominantné teoretický prístup k reprezentácii je vzorkovanie pravdepodobnosť. Ak sú údaje zhromažďované metódou vzorkovania pravdepodobnosť, že bol dokonale vykonaný, vedci sú schopní vážiť svoje dáta na základe spôsobu, akým boli zhromaždené, aby nestranné odhady o cieľovej populácie. Avšak, ideálne vzorkovanie pravdepodobnosť, v podstate nikdy nestane v reálnom svete. Tam sú zvyčajne dva hlavné problémy 1) rozdiely medzi cieľovou populáciu a populáciu rámu a 2) non-response (to sú presne tie problémy, ktoré rozbil Literary Digest hlasovanie). Tak, skôr než myslieť na náhodnom výbere ako realistický model, čo sa vlastne deje vo svete, je lepšie myslieť na náhodnom výbere ako užitočný, teoretického modelu, rovnako ako spôsob, akým fyzici premýšľať o trenie loptou kotúľa nekonečne dlho rampa.
Alternatívou k náhodnom výbere je vzorkovacia non-pravdepodobnosti. Hlavný rozdiel medzi pravdepodobnosťou a odber vzoriek než pravdepodobnosť, že sa vzorkovanie pravdepodobnosť, každý v populácii má známu pravdepodobnosť začlenenia. K dispozícii sú v skutočnosti mnoho druhov vzoriek non-pravdepodobnosti, a tieto metódy zberu dát sú čoraz častejšie v digitálnom veku. Ale vzorkovanie non-pravdepodobnosti má hroznú povesť medzi sociológmi a štatistikov. V skutočnosti, vzorkovanie non-pravdepodobnosť je spojená s niektorými z najdramatickejších neúspechov výskumníkov prieskumu, ako fiasko Literary Digest (diskutované skôr) a nesprávne predpovede o amerických prezidentských voľbách z roku 1948 ( "Dewey porazí Trumana") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Avšak, je správny čas, aby prehodnotila vzorkovanie non-pravdepodobnostné z dvoch dôvodov. Po prvé, ako vzorky pravdepodobnostné sú stále ťažké robiť v praxi je hranica medzi pravdepodobnostných výberov a vzoriek non-pravdepodobnosť rozmazania. Keď tam sú vysoká miera neodpovede (ako existujú reálne prieskumoch teraz), skutočná pravdepodobnosť inklúzií pre respondentov nie sú známe, a preto vzorky pravdepodobnostné a vzorky non-pravdepodobnostné nie sú tak odlišné, ako veľa výskumníkov verí. V skutočnosti, ako uvidíme ďalej, oba prístupy v zásade vychádzať z rovnakých metódy odhadu: post-stratifikácie. Po druhé, tam bolo veľa vývoj v oblasti zberu a analýzy vzoriek non-pravdepodobnosti. Tieto metódy sú natoľko odlišné od metód, ktoré spôsobili problémy v minulosti, myslím, že to dáva zmysel uvažovať o nich ako "vzorkovanie non-pravdepodobnostné 2.0." Nemali by sme mať iracionálny averziu k metódam non-pravdepodobnostné kvôli chybám, ktoré sa stali pred dlhým časom.
Ďalej, aby toto tvrdenie konkrétnejšie, budem skontrolovať štandardné náhodnom výbere a váženie (§ 3.4.1). Kľúčovou myšlienkou je, že ako sa zhromažďujú dáta by mala vplyv na tom, ako ste odhady. Najmä, keď každý nemá rovnakú pravdepodobnosť zaradenie, potom každý by nemala mať rovnakú váhu. Inými slovami, ak vaše vzorkovanie nie je demokratický, potom sa vaše odhady by nemala byť demokratický. Po preskúmaní váhu, budem popisovať dva prístupy k odberu non-pravdepodobnostné: ten, ktorý sa zameriava na váženie sa vysporiadať s problémom náhodne zozbieraných údajov (pozri kapitolu 3.4.2), a jeden, ktorý sa snaží klásť väčšiu kontrolu nad tým, ako sú dáta zhromaždené (oddiel 3.4.3). Argumenty v hlavnom texte bude vysvetlené nižšie s slovom i obrazom; Čitatelia, ktorí by chceli viac matematickú liečbu by mal tiež nájdete v technickom dodatku.