Digitální věk dělá v praxi větší pravděpodobnost odběru vzorků a vytváří nové příležitosti pro odběr vzorků, které nejsou pravděpodobné.
V historii odběru vzorků existují dva konkurenční přístupy: metody pravděpodobnosti odběru vzorků a metody odběru vzorků, které nejsou pravděpodobné. Přestože byly použity oba přístupy v prvních dnech odběru vzorků, došla k dominanci pravděpodobnostního výběru a mnozí sociální vědci se učí s velkým skepticismem, aby se podívali na nepravděpodobnost odběru vzorků. Nicméně, jak to popíšu níže, změny vytvořené digitálním věkem znamenají, že je čas na to, aby vědci přehodnotili vzorkování bez pravděpodobnosti. Zejména se v praxi těžko dělá vzorkování pravděpodobnosti a vzorkování s pravděpodobností se stává rychlejší, levnější a lepší. Rychlejší a levnější průzkumy nejsou jen samotné cíle: umožňují nové příležitosti, jako jsou častější průzkumy a větší velikosti vzorků. Například pomocí koeficientu nepravděpodobné metody může studie kooperativní kongresové volby (CCES) mít zhruba desetkrát více účastníků než dříve provedené studie s použitím vzorků pravděpodobnosti. Tento mnohem větší vzorek umožňuje politickým vědcům studovat rozdíly v postojích a chování mezi podskupinami a společenskými kontexty. Dále, všechny tyto přidané stupnice přišlo bez snížení kvality odhadů (Ansolabehere and Rivers 2013) .
V současné době je dominantním přístupem k odběru vzorků pro společenský výzkum pravděpodobnostní vzorkování . Ve vzorku pravděpodobnosti mají všichni členové cílové populace známou nenulovou pravděpodobnost odebrání vzorků a všichni lidé, kteří jsou vzorkem, reagují na průzkum. Když jsou tyto podmínky splněny, elegantní matematické výsledky nabízejí prokazatelné záruky, pokud jde o schopnost výzkumného pracovníka použít vzorek k vyvozování závěrů o cílové populaci.
V reálném světě jsou však podmínky, které jsou základem těchto matematických výsledků, zřídka splněny. Například tam jsou často chyby pokrytí a nonresponse. Kvůli těmto problémům musí výzkumníci často využívat řadu statistických úprav, aby odvozili svůj vzorek od cílové populace. Proto je důležité rozlišovat mezi teoretickou pravděpodobností vzorkování pravděpodobnosti , která má silné teoretické záruky a pravděpodobnostní vzorkování v praxi , která neposkytuje žádné takové záruky a závisí na různých statistických úpravách.
V průběhu času se rozdíly mezi vzorkováním pravděpodobnosti v teorii a výběrem pravděpodobnosti v praxi zvyšovaly. Například míra nezaměstnanosti se neustále zvyšuje, a to i ve vysoce kvalitních a nákladných průzkumech (obrázek 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Míra neodpovědnosti je mnohem vyšší v komerčních telefonních průzkumech - někdy dokonce až 90% (Kohut et al. 2012) . Toto zvýšení nezávadnosti ohrožuje kvalitu odhadů, protože odhady stále více závisí na statistických modelech, které výzkumníci používají k úpravě pro neodpovědnost. Dále se tyto poklesy kvality projevily navzdory rostoucímu nákladnému úsilí výzkumných pracovníků v oblasti výzkumu udržovat vysokou míru odpovědí. Někteří lidé se obávají, že tyto dvojité trendy snižování kvality a rostoucí náklady ohrožují základ výzkumu výzkumu (National Research Council 2013) .
Současně s rostoucími obtížemi ohledně pravděpodobných metod výběru vzorků se objevil vzrušující vývoj v metodách odběru vzorků, které nejsou pravděpodobné . Existuje celá řada stylů metod odběru vzorků bez pravděpodobnosti, ale jediná věc, kterou mají společné, je to, že se nemohou snadno zapadnout do matematického rámce vzorkování pravděpodobnosti (Baker et al. 2013) . Jinými slovy, v metodách vzorkování, které nejsou pravděpodobné, ne všechny mají známou a nenulovou pravděpodobnost začlenění. Metody odběru vzorků, které nejsou pravděpodobné, mají strašnou pověst mezi sociálními výzkumníky a souvisejí s některými nejdramatičtějšími neúspěchy výzkumných pracovníků, jako je fiasko Literary Digest (diskutováno dříve) a "Dewey Defeats Truman", nesprávné předpovědi o USA prezidentské volby v roce 1948 (obrázek 3.6).
Jednou z forem výběru nepravděpodobné, které je zvláště vhodné pro digitální věk, je používání online panelů . Výzkumní pracovníci, kteří používají on-line panely, závisí na tom, že nějaký poskytovatel panelu - obvykle společnost, vláda nebo univerzita - staví velké a rozmanité skupiny lidí, kteří souhlasí s tím, že budou sloužit jako respondenti pro průzkumy. Tito účastníci panelů jsou často přijímáni pomocí různých metod ad hoc, jako jsou například reklamy na bannery online. Poté může výzkumný pracovník zaplatit poskytovateli panelu za přístup k vzorku respondentů s požadovanými charakteristikami (např. Národně reprezentativní pro dospělé). Tyto online panely jsou metody, které nejsou pravděpodobné, protože ne všichni mají známou nenulovou pravděpodobnost zařazení. Ačkoli on-line panely, které nejsou pravděpodobné, jsou již využívány sociálními vědci (např. CCES), stále existuje diskuse o kvalitě odhadů, které z nich pocházejí (Callegaro et al. 2014) .
Navzdory těmto diskusiím si myslím, že existují dva důvody, proč je správný čas pro sociální výzkumníky, aby přehodnotili vzorkování bez pravděpodobnosti. Za prvé, v digitálním věku došlo k mnoha změnám ve sběru a analýze vzorků, které nejsou pravděpodobné. Tyto nové metody jsou dostatečně odlišné od metod, které způsobily v minulosti problémy, které považuji za smysluplné považovat je za "vzorkování bez pravděpodobnosti 2.0." Druhým důvodem, proč by vědci měli přehodnotit vzorek s pravděpodobností, je to, praktiky jsou stále obtížnější. Pokud existují vysoké míry neodpovědnosti - jak existují v reálných průzkumech - skutečné pravděpodobnosti zařazení respondentů nejsou známy, a proto pravděpodobnostní vzorky a vzorky s pravděpodobností nejsou tak odlišné, jak se domnívají mnozí vědci.
Jak jsem již řekl, vzorky s pravděpodobností, které nejsou pravděpodobné, jsou s velkým skepticismem vnímány mnoha sociálními výzkumníky, částečně kvůli jejich roli v některých nejvíce nepříjemných selháních v počátcích výzkumu výzkumu. Jasným příkladem toho, jak daleko jsme přišli s nepravděpodobnými vzorky, je výzkum Wei Wanga, Davida Rothschilda, Sharad Goela a Andrewa Gelmana (2015) který správně získal výsledek voleb do USA v roce 2012 pomocí vzorky, která není pravděpodobné Američtí uživatelé amerických konzolí - rozhodně nezaujatý vzorek Američanů. Výzkumníci najímali respondenty z herního systému XBox a jak můžete očekávat, vzorek Xbox je zkosený a šikmý mladý: 18 až 29 let tvoří 19% voličů, ale 65% Xbox vzorků a muži tvoří 47% voličů, ale 93% vzorku Xbox (obrázek 3.7). Kvůli těmto silným demografickým předsudkům byly surové údaje o Xboxu špatným ukazatelem volebních výnosů. Předpovědělo silné vítězství pro Mitta Romneyho nad Barackem Obamou. Opět je to další příklad nebezpečí surových, neupravovaných nepravděpodobností vzorků a připomíná fiasko Literary Digest .
Wang a kolegové si ovšem byli vědomi těchto problémů a pokusili se přizpůsobit se pro jejich náhodný výběr vzorků při tvorbě odhadů. Používali zejména post-stratifikaci , což je metoda, která je také široce používána k úpravě pravděpodobnostních vzorků, které mají chyby pokrytí a nereagování.
Hlavní myšlenkou post stratifikace je použití pomocných informací o cílové populaci, které pomohou zlepšit odhad, který pochází ze vzorku. Když použili post stratifikace k odhadu odhadů z jejich nepravděpodobného vzorku, Wang a kolega nakrájeli populaci do různých skupin, odhadli podporu pro Obamy v každé skupině a poté vzali vážený průměr skupinových odhadů, aby vytvořili celkový odhad. Mohli například rozdělit obyvatelstvo do dvou skupin (muži a ženy), odhadovali podporu Obamu mezi muži a ženami a pak odhadli celkovou podporu Obamě tím, že vezmou vážený průměr, aby zohlednili skutečnost, 53% voličů a 47% mužů. Zhruba post-stratifikace pomáhá opravit nevyvážený vzorek tím, že přináší pomocné informace o velikostech skupin.
Klíčem k post-stratifikaci je vytvořit správné skupiny. Pokud můžete populaci rozdělit na homogenní skupiny tak, že míra reakce je pro všechny v každé skupině stejná, pak post-stratifikace vytvoří nestranné odhady. Jinými slovy, post-stratifikace podle pohlaví vytvoří nestranné odhady, pokud mají všichni muži reakční sklon a všechny ženy mají stejnou reakční sklon. Tento předpoklad se nazývá homogenní odezva-sklony v rámci skupinových předpokladů a v matematických poznámkách na konci této kapitoly to popisuji trochu více.
Samozřejmě, zdá se nepravděpodobné, že sklon k reakci bude stejný pro všechny muže a všechny ženy. Předpoklad homogenní odezvy - sklony v rámci skupin se však stává pravděpodobnější, jelikož počet skupin se zvyšuje. Zhruba je snazší rozsekat populaci do homogenních skupin, pokud vytvoříte více skupin. Například by se mohlo zdát nepravděpodobné, že všechny ženy mají stejnou tendenci reagovat, ale zdá se být hodně pravděpodobné, že stejná reakční tendence je pro všechny ženy ve věku 18-29 let, které absolvovaly vysokou školu a žijí v Kalifornii . Protože počet skupin používaných v post-stratifikaci se zvětšuje, předpoklady potřebné pro podporu této metody se stanou rozumnějšími. Vzhledem k této skutečnosti vědci často chtějí vytvořit velký počet skupin pro post stratifikace. Nicméně, jak se zvyšuje počet skupin, vědci narazí na jiný problém: sparsity dat. Pokud je v každé skupině jen malý počet lidí, odhady budou nejisté a v extrémním případě, kdy existuje skupina, která nemá respondenty, se po stratifikaci úplně rozpadne.
Existují dva způsoby, jak toto napjaté napětí mezi věrohodností předpokladu homogenní odezvy a tendence v rámci skupin a poptávkou po přiměřených velikostech vzorku v každé skupině. Nejprve vědci mohou shromáždit větší a rozmanitější vzorek, který pomáhá zajistit přiměřenou velikost vzorku v každé skupině. Za druhé, mohou používat důmyslnější statistický model pro vytváření odhadů v rámci skupin. A ve skutečnosti někteří badatelé oba dělají, jak Wang a kolegové udělali s jejich studiem voleb pomocí respondentů z Xboxu.
Vzhledem k tomu, že používali metodu výběru nepravděpodobné s počítačem spravovanými rozhovory (budeme mluvit více o počítačově spravovaných rozhovorech v sekci 3.5), Wang a kolegové měli velmi levné sběr dat, což jim umožnilo shromáždit informace od 345 858 jedinečných účastníků , což je obrovské množství podle volebních voleb. Tato masivní velikost vzorku jim umožnila vytvořit obrovský počet post stratifikačních skupin. Zatímco post stratifikace obvykle zahrnuje sekání populace do stovek skupin, Wang a kolegové rozdělili populaci na 176 256 skupin definovaných podle pohlaví (2 kategorie), rasy (4 kategorie), věku (4 kategorie), vzdělávání (4 kategorie) (51 kategorií), ID strany (3 kategorie), ideologie (3 kategorie) a hlasování za rok 2008 (3 kategorie). Jinými slovy, jejich obrovská velikost výběrového souboru, která byla umožněna sběrem dat s nízkými náklady, jim umožnila učinit v procesu odhadu více pravděpodobné předpoklady.
I u 345 858 jedinečných účastníků však stále existovalo mnoho, mnoho skupin, pro které Wang a jeho kolegové neměli téměř žádné respondenty. Proto používali metodu nazvanou víceúrovňová regrese, aby odhadli podporu v každé skupině. V podstatě odhadnout podporu pro Obamu v rámci určité skupiny, víceúrovňová regrese sdružila informace od mnoha úzce příbuzných skupin. Představte si například snahu odhadnout podporu Obamy mezi ženami Hispanic ve věku 18 až 29 let, kteří jsou absolventi vysokých škol, kteří jsou registrovanými demokraty, kteří se identifikují jako umírněni a kteří v roce 2008 hlasovali pro Obama. To je velmi , velmi specifická skupina a je možné, že ve vzorku s těmito vlastnostmi není nikdo. Abychom tedy mohli odhadnout tuto skupinu, víceúrovňová regrese používá statistický model pro shromáždění odhadů od lidí ve velmi podobných skupinách.
Tak Wang a kolegové používali přístup, který kombinoval víceúrovňovou regresi a post stratifikaci, a tak nazývali svou strategii víceúrovňovou regresi s post stratifikací nebo, více něžně, "panem. P. "Když Wang a kolegové používali pana P. k odhadu od vzorku pravděpodobnosti XBox, vytvořili odhady velmi blízko k celkové podpoře, kterou Obama získal ve volbách v roce 2012 (obrázek 3.8). Ve skutečnosti byly jejich odhady přesnější než souhrn tradičních průzkumů veřejného mínění. V tomto případě tedy statistické úpravy - konkrétně pan P. - zřejmě dělají dobrou práci, která opravuje předsudky v nepravděpodobnostních datech; které byly jasně viditelné při pohledu na odhady z neupravených dat Xboxu.
Existují dvě hlavní ponaučení ze studie Wangu a kolegů. Za prvé, neupravené nepravděpodobné vzorky mohou vést k špatným odhadům; to je ponaučení, které mnozí badatelé již slyšeli. Druhá lekce však spočívá v tom, že vzorky, které nejsou pravděpodobné, mohou při správné analýze skutečně produkovat dobré odhady; nepravděpodobné vzorky nemusí automaticky vést k něčemu, jako je fiasko Literary Digest .
Pokračujte vpřed, pokud se pokoušíte rozhodnout mezi používáním přístupu založeného na pravděpodobnosti výběru vzorků a přístupu založeném na nepravděpodobném výběru vzorků, musíte čelit obtížné volbě. Někdy vědci chtějí rychlé a rigidní pravidlo (např. Vždy používají metody výběru pravděpodobnosti), ale je stále obtížnější nabízet takové pravidlo. Výzkumníci čelí obtížné volbě mezi metodami výběru pravděpodobnosti v praxi - které jsou stále dražší a daleko od teoretických výsledků, které ospravedlňují jejich metody použití a nepravděpodobnosti vzorkování - které jsou levnější a rychlejší, ale méně známé a pestřejší. Jedna věc, která je však jasná, je, že pokud jste nuceni pracovat s nepravděpodobnými vzorky nebo nereprezentativními velkými zdroji dat (přemýšlejte zpět do kapitoly 2), pak existuje silný důvod domnívat se, že odhady provedené pomocí post stratifikace a související techniky budou lepší než neupravené, hrubé odhady.