Pārstāvība ir par padarot secinājumus no saviem respondentiem, lai jūsu mērķa populācijā.
Lai saprastu, kāda veida kļūdas var rasties, ja respondenti no plašākiem iedzīvotājiem secina, apsveriet Literary Digest salmu aptauju, kas mēģināja paredzēt 1936. gada ASV prezidenta vēlēšanu rezultātus. Lai gan tas notika vairāk nekā pirms 75 gadiem, šai sliktajai izpētei joprojām ir svarīga mācība, kas mūsdienās māca pētniekus.
Literatūras žurnāls bija populārs žurnāls par vispārējām interesēm, un, sākot ar 1920. gadu, prezidenta vēlēšanu rezultātu prognozēšanai viņi sāka izsniegt somu aptaujas. Lai veiktu šīs prognozes, viņi nosūtītu vēlēšanu biļetenus daudziem cilvēkiem un pēc tam vienkārši sakārtotu balsis, kas tika atgriezti; Literārā daiļrade ar lepnumu ziņoja, ka viņu saņemtie balsošanas rezultāti nebija ne "svērti, noregulēti, ne interpretēti". Šī procedūra pareizi paredzēja vēlēšanu uzvarētājus 1920., 1924., 1928. un 1932. gadā. 1936. gadā Lielās depresijas, literatūras Digest izsūtīja balsojumus 10 miljoniem cilvēku, kuru vārdi galvenokārt bija telefonu katalogi un automašīnu reģistrācijas ieraksti. Lūk, kā viņi aprakstīja savu metodoloģiju:
"CIGEST gludās darbības mašīna pārvietojas ar strauju precizitāti trīsdesmit gadu pieredzi, lai samazinātu minējumus par grūti faktiem ... Šonedēļ 500 pildspalvas noskrāpēja vairāk nekā ceturtdaļu miljonu adreses dienā. Katru dienu lielajā telpā, kas atrodas augstumā virs Ņujorkas ceturtā avēnija ar motorizēto lentu, 400 darbinieku pamazām slīd miljonu gabalu iespieddarbu, kas ir pietiekami, lai bruģētu četrdesmit pilsētas blokus - uz adresēto aploksnes [sic]. Katru stundu DIGEST pašmāju pastkastīšu apakšstacijās baltās iegarenas aizzīmogotas un apzīmogotas trīs čehu pastmarku mērīšanas ierīces; kvalificēti pasta darbinieki tos pagrieza uz izteiksmīgiem pasta sūtījumiem; flotes DIGEST kravas automašīnas sped tos izteikt pasta vilcienu. . . Nākamajā nedēļā pirmās atbildes no šiem desmit miljoniem sāks ierakstīto vēlēšanu novērojumu plūsmu, tos trīs reizes pārbaudīs, verificēs, piecas reizes sadalīs un apkopo. Kad pēdējais skaitlis ir apkopots un pārbaudīts, ja iepriekšējā pieredze ir kritērijs, tad valstij būs zināms, ka daļa no 1 procentiem faktiski ir populārs balsojums četrdesmit miljoniem [vēlētāju]. "(1936. gada 22. augusts)
Literatūras Digesta izmēra fetišisms šodien ir uzreiz atpazīstams jebkuram "lielajam datu" pētniekam. No 10 miljoniem izsniegto balsošanas atgriezās apbrīnojami 2,4 miljoni, kas ir apmēram 1000 reizes lielāki nekā mūsdienu politiskās aptaujas. No šiem 2,4 miljoniem respondentu spriedums bija skaidrs: Alf Landons gatavojas uzvarēt vēsturisko Franklinu Rouzveltu. Bet faktiski Rouzvelts uzvarēja Landon zemes nogruvumā. Kā Literary Digest varētu kļūt nepareizi ar tik daudziem datiem? Mūsu mūsdienu izpratne par paraugu ņemšanu padara skaidrākas literārā Digesta kļūdas un palīdz mums izvairīties no līdzīgām kļūdām nākotnē.
Skaidri domājot par paraugu ņemšanu, mums jāapsver četras dažādas cilvēku grupas (3.2. Attēls). Pirmā grupa ir mērķa populācija ; šī ir grupa, kuru pētnieks definē kā interesējošo iedzīvotāju. Literārā datu avota gadījumā 1936. gada prezidenta vēlēšanās mērķauditorija bija vēlētāji.
Izlemjot par mērķauditoriju, pētniekam jāizstrādā to cilvēku saraksts, kurus var izmantot izlases veidošanai. Šo sarakstu sauc par paraugu ņemšanas rāmi, un uz to cilvēki sauc par rāmju populāciju . Ideālā gadījumā mērķauditorija un rāmju populācija būtu pilnīgi vienāda, bet praksē tas bieži vien nav tas gadījums. Piemēram, Literary Digest gadījumā rāmju populācija bija 10 miljoni cilvēku, kuru vārdi pārsvarā bija telefonu katalogi un automašīnu reģistrācijas ieraksti. Atšķirības starp mērķa populāciju un rāmju populāciju sauc par pārklājuma kļūdu . Pārklājuma kļūda pati par sevi negarantē problēmas. Tomēr tas var novest pie pārklājuma neobjektivitātes, ja cilvēki, kas atrodas rāmju populācijā, sistemātiski atšķiras no cilvēkiem mērķa populācijā, kuri nav rāmju populācijā. Faktiski tieši tas notiek Literatūras Digest aptaujā. Cilvēki savā rāmja iedzīvotāju vidū, visticamāk, atbalstīja Alf Landon, daļēji tāpēc, ka viņi bija bagātāki (atgādināt, ka 1936. gadā gan telefoni, gan automašīnas bija samērā jauni un dārgi). Tātad, Literatūras Digest aptaujā, pārklājuma kļūda noveda pie pārklāšanās aizspriedumiem.
Pēc rāmja populācijas definēšanas nākamais solis ir pētniekam izvēlēties izlases populāciju ; tie ir cilvēki, kurus pētnieks mēģinās intervē. Ja paraugam ir atšķirīgas īpašības nekā rāmju populācijai, paraugu ņemšanas kļūda var tikt ieviesta. Literatūras Digest fiasko gadījumā tomēr faktiski nebija paraugu ņemšanas - žurnāla, kas sazinājās ar ikvienu lietotāju grupā, un tāpēc nebija izlases kļūdas. Daudzi pētnieki mēdz koncentrēties uz izlases kļūdu - tas parasti ir vienīgais kļūdas veids, ko uztver ar aptaujas laikā uzrādīto kļūdu starpību, taču literārā datējuma fiasko mums atgādina, ka mums ir jāņem vērā visi nejaušie un sistemātiski kļūdainie avoti.
Visbeidzot, pēc izlases populācijas atlases pētnieks mēģina intervēt savus dalībniekus. Tie cilvēki, kuri tiek veiksmīgi intervēti, sauc par respondentiem . Ideālā gadījumā izlases iedzīvotāji un respondenti būtu tieši tādi paši, bet praksē nav atbildes. Tas nozīmē, ka dažkārt cilvēki, kas atlasīti izlasē, nepiedalās. Ja atbildes cilvēki atšķiras no tiem, kuri nereaģē, tad var būt novirze no atbildes . Neatbildes neobjektivitāte bija otrā galvenā literārā lasījuma kompānijas aptauja. Tikai 24% respondentu, kas saņēma balsošanu, atbildēja, un izrādījās, ka cilvēki, kas atbalstīja Landon, visticamāk atbildēja.
Papildus tam, ka ir tikai piemērs pārstāvības ideju ieviešanai, Literārā Digesta aptauja ir bieži atkārtota līdzība, kas brīdina pētniekus par nejaušās izlases bīstamību. Diemžēl es domāju, ka mācība, ko daudzi cilvēki gūst no šī stāsta, ir nepareiza. Visbiežāk stāstījuma morāls ir tas, ka pētnieki nevar iemācīties neko no nevēlamu paraugu (ti, paraugi bez stingriem varbūtību pamatotajiem noteikumiem dalībnieku atlasei). Bet, kā es parādīšu vēlāk šajā nodaļā, tas nav pilnīgi pareizi. Tā vietā es domāju, ka šim stāstam ir patiesi divi morāli; Mūsdienu morāli, kas bija tādi paši kā 1936. gadā. Pirmkārt, daudzi nejauši savākti dati negarantē labu aplēsi. Kopumā, ja liels skaits respondentu samazina aplēšu novirzi, tas ne vienmēr samazina aizspriedumus. Ar daudziem datiem pētnieki reizēm var iegūt precīzu nepareizās vērtības novērtējumu; tie var būt tieši neprecīzi (McFarland and McFarland 2015) . Otrā galvenā Literatūras Digest fiasko mācība ir tā, ka pētniekiem jāņem vērā, kā viņu paraugs tika savākts, veicot aprēķinus. Citiem vārdiem sakot, tā kā dažu respondentu sistemātiski tika novirzīts paraugu ņemšanas process Literārās Digest aptaujas laikā, pētniekiem bija jāizmanto sarežģītāks novērtēšanas process, kas dažiem respondentiem novērtēja vairāk nekā citi. Vēlāk šajā nodaļā es parādīšu jums vienu šādu svēruma procedūru pēc stratifikācijas, kas var palīdzēt jums veikt labākus aprēķinus, izmantojot nejaušus paraugus.