Representasyon ay tungkol sa paggawa inferences mula sa iyong respondents sa iyong target na populasyon.
Upang maintindihan ang uri ng mga pagkakamali na maaaring mangyari kapag inferring mula sa mga sumasagot sa mas malaking populasyon, isaalang-alang natin ang Literary Digest straw poll na sinubukan upang mahulaan ang kinalabasan ng 1936 na pampanguluhan ng Estados Unidos. Kahit na ito ay nangyari higit sa 75 taon na ang nakakaraan, ang debacle pa rin ito ay may isang mahalagang aralin upang magturo ng mga mananaliksik ngayon.
Ang Literary Digest ay isang tanyag na pangkalahatang interes ng magasin, at simula noong 1920 nagsimula silang tumakbo sa mga poll ng dayami upang mahulaan ang mga kinalabasan ng mga halalan sa pampanguluhan. Upang gawin ang mga hulang ito, magpapadala sila ng mga balota sa maraming tao at pagkatapos ay i-tally lamang ang mga balota na ibinalik; Ang Literary Digest ay buong kapus- palad na nag-ulat na ang mga balota na natanggap nila ay hindi "tinimbang, nababagay, o hindi binigyang-kahulugan." Ang pamamaraan na ito ay tama ang hinulaan ang mga nanalo ng halalan noong 1920, 1924, 1928 at 1932. Noong 1936, sa gitna ng Great Depression, Literary Ang Digest ay nagpadala ng mga balota sa 10 milyong tao, na ang mga pangalan ay nakararami sa mga direktoryo ng telepono at mga rekord sa pagpaparehistro ng sasakyan. Narito kung paano nila inilarawan ang kanilang pamamaraan:
"ANG makinis na operasyon ng DIGEST ay gumagalaw na may mabilis na katumpakan ng tatlumpung taon na karanasan upang mabawasan ang paghula sa mga mahihirap na katotohanan ... Sa linggong ito 500 mga pens scratched out higit sa isang isang-kapat ng isang milyong mga address sa isang araw. Araw-araw, sa isang mahusay na silid na mataas sa itaas ng Motor-ribboned Fourth Avenue, sa New York, ang 400 manggagawa ay may baluktot na pag-slide ng isang milyong piraso ng nakalimbag na bagay-sapat na upang maghanda ng apatnapung mga bloke ng lungsod-sa mga natugunan na mga envelop. Bawat oras, sa sariling Post Office Substation ng DIGEST, ang tatlong nagpapaikut-ikot na mga kagamitan sa pagsukat ng selyo ay tinatakan at naselyohang ang mga puting oblong; Ang mga bihasang empleyado ng postal ay binaligtad sila sa mga nakakasakit na mga mail; Ang mabilis na mga trak ay pinalakas ang mga ito upang ipahayag ang mga mail-train. . . Sa susunod na linggo, ang unang sagot mula sa sampung milyong ito ay magsisimula sa papasok na laki ng minarkahang mga balota, na ma-triple-check, napatunayan, limang-beses na cross-classified at totaled. Kapag ang huling pigura ay naitala at nasuri, kung ang nakaraang karanasan ay isang criterion, alam ng bansa sa loob ng isang bahagi ng 1 porsiyento ang aktwal na popular na boto ng apatnapung milyong [mga botante]. "(Agosto 22, 1936)
Ang pagkakasunud-sunod ng laki ng Literary Digest ay agad na nakikilala sa anumang "malaking data" na tagapagpananaliksik ngayon. Sa 10 milyong balota na ipinamamahagi, isang kamangha-manghang 2.4 milyon ang naibalik-na halos 1,000 beses na mas malaki kaysa sa modernong mga pampulitikang botohan. Mula sa mga 2.4 milyong respondent, malinaw ang hatol: Ang Alf Landon ay matatalo ang kasalukuyang nanunungkulan na Franklin Roosevelt. Ngunit, sa katunayan, pinabagsak ni Roosevelt si Landon sa pagguho ng lupa. Paano makagambala ang Literary Digest sa labis na data? Ang aming modernong pag-unawa sa sampling ay gumagawa ng mga pagkakamali ng Literary Digest na malinaw at tumutulong sa amin na maiwasan ang paggawa ng katulad na mga pagkakamali sa hinaharap.
Ang pag-iisip nang malinaw tungkol sa sampling ay nangangailangan sa amin upang isaalang-alang ang apat na magkakaibang grupo ng mga tao (tayahin 3.2). Ang unang grupo ay ang target na populasyon ; ito ang pangkat na tinutukoy ng mananaliksik bilang populasyon ng interes. Sa kaso ng Literary Digest , ang target na populasyon ay mga botante sa 1936 pampanguluhan halalan.
Pagkatapos ng pagpapasya sa isang target na populasyon, isang researcher ay kailangang bumuo ng isang listahan ng mga tao na maaaring magamit para sa sampling. Ang listahang ito ay tinatawag na isang sampling frame at ang mga tao dito ay tinatawag na populasyon ng frame . Sa isip, ang target na populasyon at ang populasyon ng frame ay eksakto ang parehong, ngunit sa pagsasagawa ito ay madalas na hindi ang kaso. Halimbawa, sa kaso ng Literary Digest , ang populasyon ng frame ay ang 10 milyong tao na ang mga pangalan ay nagmula sa mga direktoryo ng telepono at mga talaan sa pagpaparehistro ng sasakyan. Ang mga pagkakaiba sa pagitan ng target populasyon at ang populasyon ng frame ay tinatawag na error sa saklaw . Ang error sa pagsakop ay hindi, sa pamamagitan mismo, ay nagbibigay ng garantiya sa mga problema. Gayunpaman, maaari itong humantong sa bias coverage kung ang mga tao sa frame na populasyon ay sistematikong naiiba mula sa mga tao sa target na populasyon na wala sa populasyon ng frame. Ito ay, sa katunayan, eksakto kung ano ang nangyari sa poll Literary Digest . Ang mga tao sa kanilang mga populasyon ay may posibilidad na maging mas malamang na suportahan ang Alf Landon, sa bahagi dahil mas mayaman sila (pagpapabalik na ang mga telepono at mga sasakyan ay medyo bago at mahal noong 1936). Kaya, sa poll Literary Digest , ang error sa coverage ay humantong sa bias sa coverage.
Pagkatapos ng pagtukoy sa populasyon ng frame , ang susunod na hakbang ay para sa isang mananaliksik upang piliin ang sample na populasyon ; ito ang mga taong sinisikap ng mananaliksik na pakikipanayam. Kung ang sample ay may iba't ibang katangian kaysa sa populasyon ng frame, pagkatapos ay ang sampling ay maaaring magpakilala ng sampling error . Gayunpaman, sa kaso ng pagkawasak ng Literary Digest , diyan ay walang sampling-ang magasin na makipag-ugnay sa lahat sa populasyon ng frame-at samakatuwid ay walang error sa sampling. Maraming mananaliksik ay may posibilidad na mag-focus sa sampling error-kadalasang ito ang tanging uri ng error na nakuha ng margin ng error na iniulat sa mga survey-ngunit ang Literary Digest na pagkukunwari ay nagpapaalala sa atin na kailangan nating isaalang-alang ang lahat ng mga pinagkukunan ng error, parehong random at sistematiko.
Sa wakas, pagkatapos ng pagpili ng isang sampol na populasyon, sinisikap ng isang mananaliksik na pakikipanayam ang lahat ng mga miyembro nito. Ang mga taong matagumpay na hinarap ay tinatawag na mga sumasagot . Sa isip, ang sample na populasyon at ang mga sumasagot ay eksaktong pareho, ngunit sa pagsasagawa ay walang sagot. Iyon ay, kung minsan ang mga taong napili sa sample ay hindi lumahok. Kung ang mga taong tumutugon ay naiiba mula sa mga hindi sumasagot, maaaring magkakaroon ng hindi pagtugon sa bias . Ang hindi pagsang-ayon sa bias ay ang ikalawang pangunahing problema sa poll Literary Digest . 24% lamang ng mga taong nakatanggap ng isang balota ay tumugon, at ito ay naging ang mga taong sumusuporta kay Landon ay mas malamang na tumugon.
Higit pa sa pagiging isang halimbawa upang ipakilala ang mga ideya ng representasyon, ang Literary Digest poll ay isang madalas na paulit-ulit na talinghaga, na nag-iingat sa mga mananaliksik tungkol sa mga panganib ng sampalong sampling. Sa kasamaang palad, sa palagay ko na ang aral na kinukuha ng maraming tao mula sa kuwentong ito ay ang mali. Ang pinaka-karaniwang moral ng kuwento ay ang mga mananaliksik ay hindi maaaring matuto ng anumang bagay mula sa mga di-posibilidad na mga sample (ibig sabihin, mga sample na walang mahigpit na mga tuntunin na batay sa posibilidad para sa pagpili ng mga kalahok). Ngunit, tulad ng ipapakita ko mamaya sa kabanatang ito, hindi tama iyan. Sa halip, sa palagay ko may dalawang moral sa kuwentong ito; ang mga moral na totoo ngayon sa mga ito noong 1936. Una, ang isang malaking halaga ng mga nakakukubling data na nakolekta ay hindi ginagarantiyahan ng isang mahusay na pagtatantya. Sa pangkalahatan, ang pagkakaroon ng isang malaking bilang ng mga respondent ay bumababa sa pagkakaiba ng mga estima, ngunit hindi ito kinakailangang bawasan ang bias. Sa maraming data, ang mga mananaliksik ay maaaring paminsan-minsan ay makakakuha ng tumpak na pagtantya ng maling bagay; maaari silang maging tumpak (McFarland and McFarland 2015) . Ang ikalawang pangunahing aralin mula sa pagkagumon ng Literary Digest ay ang mga mananaliksik na kailangang isaalang-alang kung paano nakolekta ang kanilang sample kapag gumagawa ng mga pagtatantya. Sa ibang salita, dahil ang sampling na proseso sa Literary Digest poll ay sistematikong pinagsama sa ilang mga respondent, kinakailangan ng mga mananaliksik na gumamit ng isang mas kumplikadong proseso ng pagpapahalaga na nagbawas ng ilang mga tumutugon nang higit kaysa sa iba. Sa bandang huli sa kabanatang ito, ipapakita ko sa iyo ang isa sa naturang weighting procedure-post-stratification-na maaaring magpapagana sa iyo upang gumawa ng mas mahusay na mga pagtatantya mula sa mga sampol na sampol.