Zastoupení je asi dělat závěry ze svých respondentů pro vaši cílovou populaci.
Abychom porozuměli druhu chyb, k nimž může dojít při odvozování od respondentů k větší populaci, uvažujme o průzkumu strašidel Literary Digest, který se snažil předpovědět výsledek amerických prezidentských voleb v roce 1936. Ačkoli se to stalo před více než 75 lety, tento debakl stále má důležitou lekci, která dnes vyučuje.
Literární Digest byl populární časopis obecného zájmu a začal v roce 1920 zahájit průzkum slámy, aby předpověděl výsledky prezidentských voleb. Chcete-li tyto předpovědi, poslat hlasovací lístky spoustě lidí a pak jednoduše shromáždit hlasovací lístky, které byly vráceny; Literární Digest hrdě hlásil, že hlasovací lístky, které obdržely nebyly ani „vážené, upravená, ani interpretovány.“ Tento postup správně předpověděl vítěze voleb v roce 1920, 1924, 1928 a 1932. V roce 1936, ve středu velké deprese, literární Digest rozeslal hlasovací lístky na 10 milionů lidí, jejichž jména pocházela převážně z telefonních seznamů a záznamů o registraci automobilů. Zde je popis jejich metodologie:
"Stroj DIGEST s plynulým chodem se pohybuje s rychlou přesností třicetileté zkušenosti, aby se snížila hádka o tvrdé fakty ... Tento týden 500 pera vyškrábala více než čtvrt milionu adres denně. Každý den, ve velkém pokoji vysoko nad čtyřbodovým motorovým pásem v New Yorku, 400 pracovníků smysluplně posunuje miliony kusů tiskovin - dostatečně na to, aby připravily čtyřicet městských bloků - do adresovaných obálek [sic]. Každá hodina, v vlastní rozhlase stanice DIGEST, tři pečovatelské poštovní stroje zapečetěly a vyrazily bílé podloupy; kvalifikovaní poštovní zaměstnanci je převlečili do vypuklých poštovních schránek; vozy DIGEST vozového parku posílaly, aby vyslaly poštovní vlaky. . . Příští týden první odpovědi z těchto deseti milionů zahájí příliv značených hlasovacích lístků, tříletý, ověřený, pětkrát zkříženě a celkem. Když je poslední číslo vyčísleno a zkontrolováno, pokud je minulá zkušenost kritérii, bude země znát v rámci zlomku 1% skutečné hlasy čtyřiceti milionů [voličů]. "(22. srpna 1936)
Literatura Digest je fetišizování velikosti je okamžitě rozeznatelná každému výzkumníkovi "velkých dat" dnes. Ze 10 milionů hlasů, které byly distribuovány, bylo vráceno neuvěřitelných 2,4 milionů - což je zhruba 1000 krát větší než moderní politické volby. Z těchto 2,4 milionu respondentů byl verdikt jasný: Alf Landon se chystá porazit úředníka Franklina Roosevelta. Ale ve skutečnosti Roosevelt porazil Landona v sesuvu půdy. Jak by Literární Digest pokazil tolik údajů? Naše moderní chápání vzorků zřetelně odhaluje chyby Literary Digest a pomáhá nám vyhnout se podobným chybám v budoucnu.
Jasné přemýšlení o odběru vzorků vyžaduje, abychom zvážili čtyři různé skupiny lidí (obrázek 3.2). První skupinou je cílová populace ; toto je skupina, kterou výzkumník definuje jako populaci, která je předmětem zájmu. V případě Literary Digest , cílová populace byla voliči v prezidentských volbách v roce 1936.
Po rozhodování o cílové populaci musí badatel vypracovat seznam osob, které mohou být použity k odběru vzorků. Tento seznam se nazývá vzorkovací rámec a lidé na něm se nazývají populace rámců . V ideálním případě by cílová populace a populace rámců byly úplně stejné, ale v praxi to často neplatí. Například v případě Literary Digest byla populace rámců 10 miliónů lidí, jejichž jména pocházela převážně z telefonních seznamů a registračních záznamů automobilů. Rozdíly mezi cílovou populací a populací rámce se nazývají chyba pokrytí . Chyba pokrytí sama o sobě nezaručuje problémy. To však může vést k pokrytí zaujatosti, pokud se lidé v populaci rámce systematicky liší od lidí v cílové populaci, kteří nejsou v populaci rámce. To je přesně to, co se stalo v průzkumu Literary Digest . Lidé ve své skupině obyvatel měli tendenci více podporovat Alf Landona, částečně proto, že byli bohatší (připomněli si, že jak telefony, tak automobily byly relativně nové a drahé v roce 1936). Takže v průzkumu Literary Digest , chyba pokrytí vedla k pokrytí zaujatosti.
Po definování populace rámce je dalším krokem, aby výzkumník zvolil populaci vzorku ; to jsou lidé, s nimiž se výzkumník pokusí provést rozhovor. Pokud vzorek má jiné vlastnosti než populace rámce, může vzorkování zavést chybu vzorkování . V případě literárního digestního fiasku však ve skutečnosti nedošlo k odběru vzorků - časopisu, který by kontaktoval všechny v rámci populace rámců - a proto nedošlo k chybě vzorkování. Mnoho badatelů se zaměřuje na chybu vzorkování - je to typicky jediný druh chyby zachycené hranicí chyb hlášenou v průzkumech - ale fiasko Literary Digest nám připomíná, že musíme zvážit všechny zdroje chyb, náhodné i systematické.
Nakonec, po výběru vzorové populace, se výzkumník pokusí provést rozhovor s všemi členy. Ti, kteří jsou úspěšně pohovořeni, se nazývají respondenti . V ideálním případě by populace vzorku a respondenti byli přesně stejní, ale v praxi neexistuje odpověď. To znamená, že lidé, kteří jsou ve výběrovém souboru vybráni, se někdy nezúčastní. Pokud se lidé, kteří reagují, liší od těch, kteří nereagují, pak může dojít k nonresponse zkreslení . Nonresponse zkreslení bylo druhým hlavním problémem s průzkumem Literary Digest . Pouze 24% lidí, kteří obdrželi hlasovací lístek, reagovalo a ukázalo se, že lidé, kteří podporovali Landona, reagovali častěji.
Kromě pouhého příkladu představit myšlenky zastoupení je průzkum Literary Digest často opakovaným podobenstvím, varující vědce o nebezpečí náhodného odběru vzorků. Bohužel si myslím, že poučení, které mnoho lidí z tohoto příběhu čerpá, je špatné. Nejvíce obyčejná morálka příběhu spočívá v tom, že se vědci nemohou naučit nic od vzorků, které nejsou pravděpodobné (tj. Vzorky bez přísných pravidlových pravidel pro výběr účastníků). Ale jak to ukážu později v této kapitole, není to úplně pravda. Místo toho si myslím, že tento příběh má opravdu dvě morálky. morálky, které jsou stejně pravdivé jako v roce 1936. Za prvé, velké množství náhodně shromážděných údajů nezaručuje dobrý odhad. Obecně platí, že s velkým počtem respondentů se snižuje rozptyl odhadů, ale nemusí se nutně snížit předpojatost. S velkým množstvím dat mohou vědci někdy získat přesný odhad špatné věci; mohou být přesně nepřesné (McFarland and McFarland 2015) . Druhou hlavní lekci z literárního Digest fiasco je, že vědci potřebují vzít v úvahu, jak byl jejich vzorek shromážděn při tvorbě odhadů. Jinými slovy, vzhledem k tomu, že vzorkovací proces v publikaci Literary Digest byl systematicky zkreslený vůči některým respondentům, vědci potřebovali použít složitější proces odhadu, který vážil některé respondenty více než jiní. Později v této kapitole vám ukážeme jeden takový postup vážení - post stratifikace - což vám umožní udělat lepší odhady od náhodných vzorků.