Repræsentation handler om at gøre slutninger fra dine respondenter til din målgruppe.
For at forstå de slags fejl, der kan opstå, når de afviger fra respondenterne til den større befolkning, lad os overveje den litterære digest- stråstemåling, der forsøgte at forudsige resultatet af 1936's amerikanske præsidentvalg. Selv om det skete for over 75 år siden, har denne debakel stadig en vigtig lektion til at undervise forskere i dag.
Literary Digest var et populært magasin, og begyndte i 1920 at begynde at køre stråmålinger for at forudsige resultatet af præsidentvalget. For at gøre disse forudsigelser ville de sende stemmesedler til mange mennesker og derefter simpelthen optage de afstemninger, der blev returneret; Literary Digest stolt rapporterede, at de afstemninger, de modtog, hverken var "vægtet, justeret eller fortolket." Denne procedure forudsigede korrekt valget af vinderne i 1920, 1924, 1928 og 1932. I 1936 midt i den store depression, litterære Digest sendte udstemninger til 10 millioner mennesker, hvis navne kom overvejende fra telefonbøger og registreringsregistre til bil. Sådan beskrev de deres metode:
"DIGESTs glatte løbende maskine bevæger sig med den hurtige præcision af tredive års erfaring for at reducere guesswork til hårde fakta ... I denne uge rydde 500 kuglepenne mere end en fjerdedel af en million adresser om dagen. Hver dag, i et stort rum højt over motorbåndet Fourth Avenue i New York, glider 400 arbejdere med en million stykker tryksager - nok til at bane fyrre byblokke ind i de adresserede kuverter [sic]. Hver time, i DIGESTs egen postkontor-substation, blev tre hvide porto-målemaskiner forseglet og stemplet de hvide aflange; dygtige postmedarbejdere vendte dem om til udbulende mailsacks; flåden DIGEST lastbiler sped dem til at udtrykke post-tog. . . Næste uge begynder de første svar fra disse ti millioner på den indledende tidevand af markerede stemmesedler, at blive triple-checket, verificeret, fem gange kryds-klassificeret og total. Når den sidste figur er blevet tjekket og kontrolleret, såfremt tidligere erfaring er et kriterium, vil landet vide inden for en brøkdel af 1 procent den faktiske populære stemme på 40 millioner [vælgere]. "(22. august 1936)
Literary Digest's fetishisering af størrelse er øjeblikkeligt genkendelig til enhver "big data" forsker i dag. Af de 10 millioner afstemninger, der blev distribueret, blev der returneret en fantastisk 2,4 millioner-det er cirka 1000 gange større end de moderne politiske meningsmålinger. Fra disse 2,4 millioner respondenter var dommen klar: Alf Landon skulle besejre den etablerede Franklin Roosevelt. Men i virkeligheden besejrede Roosevelt Landon i et jordskred. Hvordan kan Literary Digest gå galt med så mange data? Vores moderne forståelse af prøveudtagning gør litterære digests fejl klart og hjælper os med at undgå at lave lignende fejl i fremtiden.
Tænk tydeligt på prøveudtagning kræver, at vi overvejer fire forskellige grupper af mennesker (figur 3.2). Den første gruppe er målpopulationen ; Det er den gruppe, som forskeren definerer som interessepopulationen. I tilfælde af litterær fordøjelse var målpopulationen vælgerne i præsidentvalget i 1936.
Efter at have besluttet sig for en målgruppe, skal en forsker udvikle en liste over mennesker, som kan bruges til prøveudtagning. Denne liste kaldes en prøveudtagningsramme, og folkene på den hedder rammepopulationen . Ideelt set vil målpopulationen og rammepopulationen være nøjagtig den samme, men i praksis er det ofte ikke tilfældet. For eksempel i forbindelse med litterær fordøjelse var rammepopulationen de 10 millioner mennesker, hvis navne kom overvejende fra telefonbøger og registreringsregistre for biler. Forskelle mellem målpopulationen og rammepopulationen hedder dækningsfejl . Dækningsfejl garanterer ikke i sig selv problemer. Det kan imidlertid føre til dækningsforstyrrelser, hvis folk i rammepopulationen er systematisk forskellige fra personer i målpopulationen, som ikke er i rammepopulationen. Det er faktisk præcis, hvad der skete i den litterære digest- afstemning. Folket i deres rammepopulation havde tendens til at være mere tilbøjelige til at støtte Alf Landon, dels fordi de var rigere (husk at både telefoner og biler var forholdsvis nye og dyre i 1936). Så i diktningsoversigten i litteraturen førte dækningsfejl til dækningsperspektiv.
Efter at have defineret rammebefolkningen er det næste trin for en forsker at vælge prøvepopulationen ; Det er disse mennesker, som forskeren vil forsøge at interviewe. Hvis prøven har forskellige egenskaber end rammepopulationen, kan prøveudtagning indføre prøveudtagningsfejl . For så vidt angår Literary Digest fiasco var der imidlertid ingen prøveudtagning - bladet til at kontakte alle i rammepopulationen - og derfor var der ingen prøveudtagningsfejl. Mange forskere har en tendens til at fokusere på prøveudtagningsfejl. Dette er typisk den eneste slags fejl, der er fanget af fejlmarginen, der rapporteres i undersøgelser - men den litterære digestfasco minder os om, at vi skal overveje alle fejlkilder, både tilfældige og systematiske.
Endelig søger en forsker efter at have valgt en prøvepopulation at interviewe alle sine medlemmer. De personer, der med succes er interviewet, kaldes respondenter . Ideelt set ville prøvepopulationen og respondenterne være nøjagtigt ens, men i praksis er der ikke-respons. Det vil sige, at folk, der udvælges i stikprøven, undertiden ikke deltager. Hvis de mennesker, der reagerer, er forskellige fra dem, der ikke reagerer, så kan der være nonresponse bias . Nonresponse bias var det andet hovedproblem med Literary Digest- afstemningen. Kun 24% af de personer, der fik en afstemning, reagerede, og det viste sig, at folk, der støttede Landon, var mere tilbøjelige til at reagere.
Bortset fra blot at være et eksempel for at introducere ideerne om repræsentation, er Literary Digest- undersøgelsen en ofte gentaget lignelse, der advarer forskere om farerne ved tilfældig prøveudtagning. Desværre tror jeg, at lektionen, som mange mennesker tegner fra denne historie, er den forkerte. Historiens mest almindelige moral er, at forskere ikke kan lære noget fra ikke-sandsynlighedsprøver (dvs. prøver uden strenge sandsynlighedsbaserede regler for udvælgelse af deltagere). Men som jeg vil vise senere i dette kapitel, er det ikke helt rigtigt. I stedet tror jeg, at der virkelig er to moraler til denne historie; moral, der er lige så sande i dag som de var i 1936. For det første vil en stor mængde tilfældigt indsamlede data ikke garantere et godt skøn. Generelt har et stort antal respondenter en reduktion af estimaternes varians, men det mindsker ikke nødvendigvis forspændingen. Med mange data kan forskere nogle gange få et præcist skøn over den forkerte ting; de kan være netop unøjagtige (McFarland and McFarland 2015) . Den anden vigtigste lektion fra litterær digest fiasco er, at forskere skal redegøre for, hvordan deres prøve blev indsamlet, når de lavede skøn. Med andre ord, fordi prøveudtagningsprocessen i Literary Digest- undersøgelsen var systematisk skævt over for nogle respondenter, havde forskere behov for at anvende en mere kompleks estimeringsproces, der vejede nogle respondenter mere end andre. Senere i dette kapitel vil jeg vise dig en sådan vægtningsprocedure - post-stratification-som kan gøre dig i stand til at lave bedre estimater fra tilfældige prøver.