Vzorky pravděpodobnostní a vzorky non-pravděpodobnostní nejsou tak odlišné v praxi; V obou případech je to všechno o závaží.
Odběr vzorků je základem pro výzkum průzkumu. Výzkumníci téměř nikdy ptát na jejich otázky pro každého v jejich cílové populace. V tomto ohledu průzkumy nejsou jedinečné. Většina výzkumů, v tak či onak, zahrnuje odběr vzorků. Někdy to odběr vzorků se provádí explicitně výzkumného pracovníka; jindy se to stane implicitně. Například, výzkumník, který běží laboratorní experiment na vysokoškolských studentů v jejím univerzity také vzít vzorek. Tak vzorkování je problém, který přichází v této knize. Ve skutečnosti je jedním z nejčastějších obav, že slyším o digitálním věku zdrojů dat je "nejsou reprezentativní." Jak uvidíme v tomto oddílu je tato obava je tak méně vážná a jemnější, než si mnozí skeptici realizovat. Ve skutečnosti, budu tvrdit, že celý koncept "reprezentativnosti" není užitečné pro přemýšlení o pravděpodobnosti a non-pravděpodobnostní vzorků. Místo toho, klíč je přemýšlet o tom, jak byly údaje shromažďovány a jak případné zaujatosti v tomto sběru dat lze vrátit zpět při provádění odhadů.
V současné době dominantní teoretický přístup k reprezentaci je vzorkování pravděpodobnost. Jsou-li údaje shromažďovány metodou vzorkování pravděpodobnost, že byl dokonale proveden, vědci jsou schopni vážit svá data na základě způsobu, jakým byly shromážděny, aby nestranné odhady o cílové populace. Nicméně, ideální vzorkování pravděpodobnost, v podstatě nikdy nestane v reálném světě. Tam jsou obvykle dva hlavní problémy 1) rozdíly mezi cílovou populaci a populaci rámu a 2) non-response (to jsou přesně ty problémy, které rozbil Literary Digest hlasování). Tak, spíše než myslet na náhodném výběru jako realistický model, co se vlastně děje ve světě, je lepší myslet na náhodném výběru jako užitečný, teoretického modelu, stejně jako způsob, jakým fyzici přemýšlet o tření míčem kutálí nekonečně dlouho rampa.
Alternativou k náhodném výběru je vzorkovací non-pravděpodobnosti. Hlavní rozdíl mezi pravděpodobností a odběr vzorků než pravděpodobnost, že se vzorkování pravděpodobnost, každý v populaci má známou pravděpodobnost začlenění. K dispozici jsou ve skutečnosti mnoho druhů vzorků non-pravděpodobnosti, a tyto metody sběru dat jsou stále častější v digitálním věku. Ale vzorkování non-pravděpodobnosti má hroznou pověst mezi sociology a statistiků. Ve skutečnosti, vzorkování non-pravděpodobnost je spojena s některými z nejdramatičtějších neúspěchů výzkumníků průzkumu, jako fiasko Literary Digest (diskutovány dříve) a nesprávné předpovědi o amerických prezidentských volbách z roku 1948 ( "Dewey porazí Trumana") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Nicméně, je správný čas, aby přehodnotila vzorkování non-pravděpodobnostní ze dvou důvodů. Za prvé, jak vzorky pravděpodobnostní jsou stále obtížné dělat v praxi je hranice mezi pravděpodobnostních výběrů a vzorků non-pravděpodobnost rozmazání. Když tam jsou vysoká míra neodpovědí (jako existují reálné průzkumech nyní), skutečná pravděpodobnost inkluzí pro respondenty nejsou známy, a proto vzorky pravděpodobnostní a vzorky non-pravděpodobnostní nejsou tak odlišné, jak mnoho výzkumníků věří. Ve skutečnosti, jak uvidíme dále, oba přístupy v zásadě vycházet ze stejných metody odhadu: post-stratifikace. Za druhé, tam bylo mnoho vývoj v oblasti sběru a analýzy vzorků non-pravděpodobnosti. Tyto metody jsou natolik odlišné od metod, které způsobily problémy v minulosti, myslím, že to dává smysl uvažovat o nich jako "vzorkování non-pravděpodobnostní 2.0." Neměli bychom mít iracionální averzi k metodám non-pravděpodobnostní kvůli chybám, které se staly před dávnými časy.
Dále, aby tento argument konkrétnější, budu zkontrolovat standardní náhodném výběru a vážení (§ 3.4.1). Klíčovou myšlenkou je, že jak se shromažďují data by měla vliv na tom, jak jste odhady. Zejména, když každý nemá stejnou pravděpodobnost zařazení, pak každý by neměla mít stejnou váhu. Jinými slovy, pokud vaše vzorkování není demokratický, pak se vaše odhady by neměla být demokratický. Po přezkoumání váhu, budu popisovat dva přístupy k odběru non-pravděpodobnostní: ten, který se zaměřuje na vážení se vypořádat s problémem nahodile shromážděných údajů (viz kapitola 3.4.2), a jeden, který se snaží klást větší kontrolu nad tím, jak jsou data shromážděny (oddíl 3.4.3). Argumenty v hlavním textu bude vysvětleno níže s slovem i obrazem; Čtenáři, kteří by chtěli více matematickou léčbu by měl také naleznete v technickém dodatku.