Esindus on umbes tegemise järeldusi oma vastajad oma sihtrühmale.
Selleks, et mõista, millist vead, mis võib juhtuda, kui tuletas vastanutest suurem rahvaarv Vaatleme Kirjandusmuuseumi Digest Gallup mis püüdis Ennusta 1936 Ameerika Ühendriikide presidendivalimised. Kuigi see oli rohkem kui 75 aastat tagasi, see fiasko on veel oluline õppetund õpetada teadlased täna.
Kirjanduse Digest oli populaarne üldhuvi ajakirja ning alates 1920. hakkasid nad töötavad õled küsitlused ennustada tulemusi presidendivalimisi. Et neid prognoose nad saadaksid hääletussedelid, et paljud inimesed, ja siis lihtsalt ühtivad üles hääletussedelid, mis olid tagastatud; Kirjanduse Digest uhkelt teatas, et hääletussedeleid nad said olnud ei "kaalutud, kohandatud ega tõlgendada." Seda protseduuri õigesti ennustatud võitja valimiste 1920 1924 1928 ja 1932. aastal 1936, keset suurt depressiooni Kirjanduse Digest välja saadetud hääletamissedelite kuni 10 miljonit inimest, kelle nimed valdavalt tulid telefoniraamatud ja auto registreerimise arvestust. Siin on, kuidas nad kirjeldasid oma metoodika:
"Digest on sujuvalt masin liigub kiiresti täpsusega kolmekümne aasta pikkune kogemus vähendada mõistatama, et faktid. . . .See Nädal 500 pliiatsid kriimustatud välja rohkem kui veerand miljonit aadressi päevas. Iga päev on suur tuba kõrgel mootoriga ribboned Fourth Avenue, New York, 400 töötaja osavalt slaidi miljonit tükki trükised-piisavalt sillutada nelikümmend linnaosasid-sisse adresseeritud envelops [sic]. Iga tund, et räsi enda Post Office alajaam, kolm värinast postikulu mõõtmine masinad suletud ja templiga valge oblongs; kvalifitseeritud postiteenuse töötajate keerata need punnis mailsacks; laevastiku DIGEST- veoautod kiirustas neid väljendada mail-rongid. . . Järgmisel nädalal esimest vastuseid neid kümme miljonit hakkavad sissetuleva tõusulaine märgistatud hääletussedelid, et kolmekordne kontrollida, kontrollimise viis korda ristliigitusena ning ulatus. Kui viimane näitaja on Totted ja kontrollida, kas varasemad kogemused on kriteerium, riigis teavad, et murdosa jooksul 1 protsenti tegelikust rahva hääl on 40000000 [valijad]. "(22. august 1936)
Digest on fetishization suurus on äratuntav mis tahes "big data" teadlane täna. 10 miljonist hääletussedeleid jagatud, hämmastav 2,4 miljonit hääletussedelid olid tagasi-see on umbes 1000 korda suurem kui kaasaegse poliitilise küsitlused. Neist 2,4 miljonit vastanutest kohtuotsust oli selge: Literary Digest ennustanud, et väljakutsuja Alf Landon pidi võita turgu valitsev Franklin Roosevelt. Aga tegelikult täpselt vastupidine juhtus. Roosevelt võitis Landon maalihe. Kuidas saaks Kirjanduse Digest valesti minna nii palju andmeid? Meie kaasaegne arusaam valimi teeb Kirjanduse Digest on vead selgeks ja aitab meil vältida sarnaste vigu tulevikus.
Mõeldes selgelt umbes võtmise nõuab meilt kaaluda nelja eri inimrühmade (joonis 3.1). Esimene grupp inimesi on sihtrühma; See on rühm, et teadus on defineerinud elanike huvi. Juhul Kirjanduse Digest sihtrühmaks olid valijad 1936. aasta presidendivalimistel. Pärast otsustamist sihtrühma teadlane kõrval peab arendama nimekirja inimestest, mida saab kasutada proovide võtmist. Seda nimekirja nimetatakse üldkogumina ja elanikkonna valikuraamis nimetatakse raami elanikkonnast. Juhul Kirjanduse Digest raami elanikkonnast oli 10 miljonit inimest, kelle nimed tulid peamiselt alates telefoniraamatud ja auto registreerimise arvestust. Ideaalis sihtrühma ja raami elanikkonnast oleks täpselt sama, kuid praktikas on see tihti nii ei ole. Erinevused sihtrühma ja raami populatsiooni nimetatakse ulatus viga. Coverage viga ei, taga veel iseenesest probleeme. Aga kui inimesed raami elanikkonnast on süstemaatiliselt erinevad inimesed ei kaadris elanikkonnast tekib katvus eelarvamusi. Coverage viga oli esimene suuri vigu, mille Kirjanduse Digest küsitluse. Nad tahtsid teada valijad-, et oli oma sihtrühmas-kuid nad ehitatud üldkogumina peamiselt alates telefoniraamatud ja auto registrites, allikad, et üleesindatud jõukamad ameeriklased, kes olid suurema tõenäosusega toetada Alf Landon (meelde tuletada nii nende tehnoloogiate mis on levinud tänapäeval, olid suhteliselt uus ja ajal, et USA oli keset Suur Depressioon).
Pärast määratlemisel raami elanikkonnast, siis järgmine samm on teadlane, et valim populatsiooni; need on inimesed, et uurija üritab intervjueerida. Kui proov on erinevad omadused kui raami elanikkonnast, siis saame tutvustada valimi viga. See on selline viga kvantifitseerida veamäär, mis tavaliselt kaasneb hinnanguid. Juhul Kirjandusmuuseumi Digest fiasko, siis tegelikult ei olnud proovis; üritasid nad kõigiga ühendust raami elanikkonnast. Kuigi ei olnud valimi viga oli ilmselt ikkagi viga. See selgitab, et marginaalid vead, mida tavaliselt esitatakse koos hinnangute uuringud on tavaliselt eksitavalt väike; ei sisalda nad kõik allikad vigu.
Lõpuks teadlane üritab intervjueerida igaüks proovis elanikkonnast. Need inimesed edukalt küsitletud nimetatakse vastanutest. Ideaalis proovi elanikkonnast ja vastajate oleks täpselt sama, kuid praktikas on vastamata jätmist. See tähendab, et inimesed, kes on valimisse osalemisest keelduma. Kui inimesed, kes reageerivad erinevad nendest, kes ei reageeri, siis ei saa olla mitte-vastuste kallutatust. Non-vastuste kallutatust oli teine peamine probleem Kirjanduse Digest küsitluse. Ainult 24% inimestest, kes sai hääletusel vastanud, ja selgus, et inimesed, kes toetasid Landon olid suurema tõenäosusega vastata.
Enamat kui lihtsalt üks näide, et tutvustada ideed esindatuse Kirjandusmuuseumi Digest küsitluse on sageli korratud tähendamissõna, hoiatades teadlased ohtudest juhuslik proovide võtmist. Kahjuks ma arvan, et õppetund, et paljud inimesed ammutada see lugu on vale. Kõige tavalisem loo moraal on see, et teadlased ei saa õppida midagi mitte-valimid (st proovid ilma range tõenäosus põhinev eeskirjad osalejate valikul). Aga nagu ma näitan hiljem selles peatükis, mis ei ole päris õige. Selle asemel, ma arvan, et seal on tõesti kaks moraali see lugu; kommetega, mis on ka tänapäeval nii nagu need olid 1936. Esiteks, suur hulk juhuslikult kogutud andmed ei taga hea hinnangu. Teiseks tuleb teadlastel moodustavad, kuidas oma andmeid kogutakse, kui nad teevad hinnangute ta. Teisisõnu, kuna andmete kogumise protsessi Kirjanduse Digest küsitluse süstemaatiliselt palauttamiin mõned vastanud teadlased peavad kasutama keerukama hindamisprotsessi mis kaalusid mõned vastajad rohkem kui teised. Hiljem selles peatükis, ma näitan sulle üks selline kaalumine korra-järelkihistamisega-, mis võib aidata teil teha paremaid hinnanguid mitte-valimid.