Representasjon handler om å gjøre slutninger fra respondentene til målgruppen.
For å forstå hva slags feil som kan skje når det går ut av respondentene til den større befolkningen, la vi vurdere litteraturkornet, som forsøkte å forutsi utfallet av presidentvalget fra 1936. Selv om det skjedde for over 75 år siden, har denne debatten fortsatt en viktig leksjon for å undervise forskere i dag.
Literary Digest var et populært magasin, og begynte i 1920 å begynne å løse stråstemaner for å forutsi resultatene av presidentvalget. For å gjøre disse spådommene, ville de sende stemmesedler til mange mennesker og deretter bare telle opp stemmesedlene som ble returnert; Literary Digest stolt rapporterte at stemmesedlene de mottok ikke var "vektet, justert eller fortolket." Denne prosedyren forutslo riktige valget av valget i 1920, 1924, 1928 og 1932. I 1936 midt i den store depresjonen, litterære Digest sendte ut stempler til 10 millioner mennesker, hvis navn kom overveiende fra telefonkataloger og registreringsregistre for bil. Slik beskriver de deres metodikk:
"DIGESTs glattløpsmaskin beveger seg med den hurtige presisjonen av tretti års erfaring for å redusere gjetning til harde fakta ... Denne uken raste 500 penner ut over en fjerdedel av en million adresser om dagen. Hver dag, i et flott rom høyt over motorbåndet Fourth Avenue, i New York, skyver 400 arbeidere en million stykker trykt materiale - nok til å bane førti byblokker - inn i adresserte konvolutter [sic]. Hver time, i DIGESTs egen postkontor-substasjon, ble tre hvatterende portmåleringsmaskiner forseglet og stemplet de hvite avlangene; dyktige postmedarbeidere vendte dem til bulging mailsacks; flåte DIGEST lastebiler sped dem for å uttrykke posttog. . . Neste uke, vil de første svarene fra disse ti millioner starte den innkommende tidevannet av merkede stemmesedler, bli trippeltestet, verifisert, fem ganger kryssklassifisert og totalt. Når den siste figuren er blitt tømt og kontrollert, hvis tidligere erfaring er et kriterium, vil landet vite at i en brøkdel av 1 prosent den faktiske populære stemme på førti millioner [velgere]. "(22. august 1936)
Literary Digests fetishisering av størrelse er umiddelbart gjenkjennelig for enhver stor dataforsker i dag. Av de 10 millioner stemmesedlene som ble distribuert, ble en fantastisk 2,4 millioner returnert - det er omtrent 1000 ganger større enn moderne politiske meningsmålinger. Fra disse 2,4 millioner respondentene var dommen klar: Alf Landon skulle beseire den etablerte Franklin Roosevelt. Men, faktisk, Roosevelt beseiret Landon i et skred. Hvordan kan Literary Digest gå galt med så mye data? Vår moderne forståelse av prøvetaking gjør det lettere for Literary Digests feil og hjelper oss med å unngå å gjøre lignende feil i fremtiden.
Å tenke klart om prøvetaking krever at vi vurderer fire forskjellige grupper av mennesker (figur 3.2). Den første gruppen er målpopulasjonen ; Dette er gruppen som forskeren definerer som populasjonen av interesse. I tilfelle av litterær fordøyelse var målpopulasjonen velgere i 1936 presidentvalget.
Etter å ha bestemt seg for en målpopulasjon, må en forsker utvikle en liste over personer som kan brukes til prøvetaking. Denne listen kalles en samplingsramme, og menneskene på den kalles rammepopulasjonen . Ideelt sett vil målpopulasjonen og rammepopulasjonen være nøyaktig den samme, men i praksis er dette ofte ikke tilfelle. For eksempel, i tilfelle Literary Digest , var rammepopulasjonen de 10 millioner menneskene, hvis navn kom hovedsakelig fra telefonkataloger og registreringsregistre for bil. Forskjeller mellom målpopulasjonen og rammepopulasjonen kalles dekningsfeil . Dekningsfeil garanterer ikke i seg selv problemer. Det kan imidlertid føre til dekningsperspektiv hvis folk i rammepopulasjonen er systematisk forskjellig fra personer i målpopulasjonen som ikke er i rammepopulasjonen. Dette er faktisk akkurat det som skjedde i litteraturfordelingen . Folket i deres rammepopulasjon pleide å være mer sannsynlig å støtte Alf Landon, delvis fordi de var rikere (husk at både telefoner og biler var relativt nye og dyre i 1936). Så, i litteraturgradsundersøkelsen førte dekningsfeil til dekningsperspektiv.
Etter å ha definert rammepopulasjonen , er neste trinn for en forsker å velge prøvepopulasjonen ; Dette er menneskene som forskeren vil forsøke å intervjue. Hvis prøven har forskjellige egenskaper enn rampopulasjonen, kan prøvetaking introdusere prøvetakingsfeil . I tilfelle av Literary Digest fiasco var det imidlertid ingen prøvetaking - magasinet for å kontakte alle i rammepopulasjonen - og det var derfor ingen prøvetakingsfeil. Mange forskere har en tendens til å fokusere på prøvetakingsfeil. Dette er typisk den eneste typen feil som er fanget av feilmarginen som er rapportert i undersøkelser, men Literary Digest Fiasco minner oss om at vi må vurdere alle feilkilder, både tilfeldig og systematisk.
Til slutt, etter å ha valgt en prøvepopulasjon, forsøker en forsker å intervjue alle sine medlemmer. De personer som er vellykket intervjuet, kalles respondenter . Ideelt sett vil prøvepopulasjonen og respondentene være nøyaktig det samme, men i praksis er det ikke-respons. Det vil si at folk som er valgt i prøven, noen ganger ikke deltar. Hvis folkene som reagerer er forskjellige fra de som ikke svarer, så kan det være en uavhengig partiskhet . Nonresponse bias var det andre hovedproblemet med Literary Digest- undersøkelsen. Bare 24% av de som mottok en stemmeseddel, reagerte, og det viste seg at folk som støttet Landon, var mer sannsynlig å svare.
Utover bare å være et eksempel for å introdusere ideene om representasjon, er Literary Digest- undersøkelsen en ofte gjentatt lignelse, og advare forskerne om farene ved tilfeldig prøvetaking. Dessverre tror jeg at leksjonen som mange trekker fra denne historien, er feil. Historiens vanligste moral er at forskere ikke kan lære noe fra ikke-sannsynlighetsprøver (dvs. prøver uten strenge sannsynlighetsbaserte regler for valg av deltakere). Men som jeg vil vise senere i dette kapitlet, er det ikke helt riktig. I stedet tror jeg det er virkelig to moraler til denne historien; moral som er like sanne i dag som de var i 1936. Først vil en stor mengde tilfeldig innsamlede data ikke garantere et godt estimat. Generelt, med et stort antall respondenter reduserer variansen av estimater, men det reduserer ikke nødvendigvis forspenningen. Med mange data kan forskere noen ganger få et presist estimat av feil ting; de kan være nettopp unøyaktige (McFarland and McFarland 2015) . Den andre hovedlesningen fra Literary Digest fiasco er at forskere må redegjøre for hvordan prøven ble samlet inn ved estimering. Med andre ord, fordi prøvetakingsprosessen i Literary Digest- undersøkelsen var systematisk skjev mot noen respondenter, måtte forskerne bruke en mer kompleks estimeringsprosess som veide noen respondenter mer enn andre. Senere i dette kapittelet vil jeg vise deg en slik vektingprosedyre - etter stratifisering - som kan gjøre deg i stand til å gjøre bedre estimater fra tilfeldige prøver.