Zastopstvo je v tem, sklepe iz svoje vprašanih vaši ciljni populaciji.
Da bi razumeli vrste napak, ki se lahko zgodijo, ko se od anketirancev povežejo na večje število prebivalcev, razmislimo o anketi o literaturi, ki je poskušala napovedati izid predsedniških volitev leta 1936 v ZDA. Čeprav se je to zgodilo pred več kot 75 leti, je ta debak še vedno pomembna lekcija za poučevanje raziskovalcev danes.
Literarna zbirka je bila priljubljena revija splošnega interesa, od leta 1920 pa so začeli izvajati ankete slame, da bi napovedali rezultate predsedniških volitev. Da bi te napovedi poslali glasovalcem veliko ljudi in nato preprosto obrazložili glasovke, ki so bili vrnjeni; Literarni Digest ponosno so poročali, da so bile glasovnice so prejeli niti "ponderirajo, prilagojen, niti razlagati." Ta postopek pravilno napovedali zmagovalce volitev leta 1920, 1924, 1928 in 1932. Leta 1936, sredi velike depresije, literarni Digest je poslala glasovnice na 10 milijonov ljudi, katerih imena so bila pretežno iz telefonskih imenikov in evidenc o registraciji avtomobilov. Evo, kako so opisali njihovo metodologijo:
"Stroj gladkega stroja DIGEST se premika s hitro natančnostjo tridesetletnih izkušenj, da bi zmanjšali ugibanje na trdna dejstva ... Ta teden je bilo 500 peresnikov izčrpanih več kot četrt milijona naslovov na dan. Vsak dan v velikem prostoru, ki je visoka nad četrto avenijo z motornim trakom, v New Yorku 400 delavcev spretno drsne milijon kosov tiskovin - dovolj, da utrdi štirideset mestnih blokov - v naslovljene envelope [sic]. Vsako uro, na lastno Post Office postaja DIGEST, trije Chattering poštarskih strojev zapečatene in žigosanje bel oblazil; usposobljeni poštni delavci so jih zavihtili v izbočene poštne pošiljke; flote DIGEST tovornjaki so jih spustili, da bi izrazili poštne vlake. . . Naslednji teden bodo prvi odgovori iz teh desetih milijonov začeli dohodne plime z označenimi glasovnicami, trikrat preveriti, preveriti, petkrat navzkrižno uvrščati in skupaj. Ko bo zadnja številka označena in preverjena, če bo merilo preteklih izkušenj, bo država v manj kot 1-odstotnem odstotku dejansko glasovala za štirideset milijonov volivcev. «(22. avgust 1936)
Fetišiziranje velikosti Literarnega Digesta je takoj prepoznavno za vsakega raziskovalca velikih podatkov danes. Od 10 milijonov glasov, ki so bili razdeljeni, je bilo vrnjenih presenetljivih 2,4 milijona, kar je približno 1000 krat večje od sodobnih političnih anket. Od teh 2,4 milijona anketirancev je bila razsodba jasna: Alf Landon je premagal sedanjega Franklina Roosevelta. Toda v resnici je Roosevelt v plazu premagal Landona. Kako bi lahko Literary Digest narobe s toliko podatkov? Naše sodobno razumevanje vzorčenja naredi napake literarnega digestra jasne in nam pomaga preprečiti podobne napake v prihodnosti.
Če jasno razmišljamo o vzorčenju, moramo upoštevati štiri različne skupine ljudi (slika 3.2). Prva skupina je ciljna populacija ; to je skupina, ki jo raziskovalec opredeljuje kot zanimivo populacijo. V literarnem povzetku je bila ciljna populacija volivcev na predsedniških volitvah leta 1936.
Po odločitvi o ciljni populaciji mora raziskovalec razviti seznam ljudi, ki jih je mogoče uporabiti za vzorčenje. Ta seznam se imenuje okvir vzorčenja, ljudje na njem pa imenujemo okvirno populacijo . V idealnem primeru bi bila ciljna populacija in okvirna populacija popolnoma enaka, v praksi to pogosto ni. Na primer, v primeru Literarnega dnevnika , je bila populacija okvirjev 10 milijonov ljudi, katerih imena so bila pretežno iz telefonskih imenikov in evidenc o registraciji avtomobilov. Razlike med ciljno populacijo in populacijo okvirjev se imenujejo napake pokritja . Napaka pokritja sama po sebi ne zagotavlja težav. Vendar pa lahko privede do pristranskosti kritja, če se ljudje v populaciji okvirjev sistematično razlikujejo od ljudi v ciljni populaciji, ki niso v populaciji slik. To je pravzaprav točno tisto, kar se je zgodilo v raziskavi Literary Digest . Ljudje v njihovem prebivalstvu so bili bolj verjetno podprli Alf Landona, deloma zato, ker so bili bogatejši (recimo, da sta bili telefoni in avtomobili relativno novi in dragi leta 1936). Torej, v anketi Literary Digest , napaka pokritosti pripeljala do pristranskosti kritja.
Po opredelitvi okvira populacije je naslednji korak raziskovalec izbrati vzorčno populacijo ; to so ljudje, ki jih bo raziskovalec poskušal anketirati. Če ima vzorec drugačne značilnosti od populacije okvirjev, lahko vzorčenje ustvari napako vzorčenja . V primeru filozofa literarnega digesta pa dejansko ni bilo nobenega vzorčenja - revije, s katerim bi se obrnili vsi v okviru populacije - in zato ni bilo nobene napake pri vzorčenju. Mnogi raziskovalci se pogosto osredotočajo na napako vzorčenja - to je ponavadi edina vrsta napak, zajetih v mejah napak, o katerih so poročali v raziskavah - toda literaren digest filozof nas opominja, da moramo upoštevati vse vire napak, naključne in sistematične.
Nazadnje, ko izbere vzorčno populacijo, raziskovalec poskuša opraviti razgovore s svojimi člani. Tisti, ki so uspešno anketirani, se imenujejo anketiranci . V idealnem primeru bi bila vzorčna populacija in anketiranci popolnoma enaki, vendar v praksi ni odgovora. To pomeni, da ljudje, ki so izbrani v vzorcu, včasih ne sodelujejo. Če se ljudje, ki se odzivajo, razlikujejo od tistih, ki se ne odzovejo, potem lahko pride do pristranskosti brez odgovora. Druga glavna težava pri anketi Literary Digest je bila nesprejemljiva pristranskost. Samo 24% ljudi, ki so prejeli glasovnico, se je odzvalo in se je izkazalo, da so se ljudje, ki so podprli Landon, bolj verjetno odzvali.
Anketa Literary Digest je poleg predstavljanja zamisli reprezentacije pogosto ponovljena parabola, ki opozarja raziskovalce o nevarnostih nesrečnega vzorčenja. Na žalost mislim, da je lekcijo, ki jo mnogi ljudje pripeljejo iz te zgodbe, napačna. Najpogostejši moralo zgodbe je, da raziskovalci ne morejo naučiti ničesar iz vzorcev, ki niso verjetni (tj. Vzorci brez strogih pravil, ki temeljijo na verjetnosti za izbiro udeležencev). Ampak, kot bom prikazal kasneje v tem poglavju, to ni čisto prav. Namesto tega mislim, da ima ta zgodba dve resnici; morale, ki so resnične danes, kot so bile leta 1936. Prvič, velika količina zbranih podatkov, zbranih na nesreči, ne bo zagotovila dobre ocene. Na splošno ima veliko število anketirancev zmanjšano odstopanje ocen, vendar ne nujno zmanjšuje pristranskosti. Z veliko podatkov lahko raziskovalci včasih dobijo natančno oceno napačne stvari; lahko so natančno netočni (McFarland and McFarland 2015) . Druga glavna lekcija filozofa Literary Digest je, da morajo raziskovalci pri ocenjevanju zbirati vzorec. Z drugimi besedami, ker je bil postopek vzorčenja v anketi Literary Digest sistematično preusmerjen proti nekaterim anketirancem, so raziskovalci morali uporabiti bolj zapleten postopek ocenjevanja, ki je ponderiral nekatere anketirance bolj kot drugi. Kasneje v tem poglavju vam pokažem en tak postopek ponovnega raztezanja, ki vam omogoča boljše ocene iz naključnih vzorcev.