Repræsentation handler om at gøre slutninger fra dine respondenter til din målgruppe.
For at forstå den slags fejl, der kan ske, når udlede respondenterne i større befolkning, lad os overveje den litterære Digest halm meningsmåling, der forsøgte at forudsige udfaldet af 1936 amerikanske præsidentvalg. Selv om det var mere end 75 år siden, denne fiasko har stadig en vigtig lektie at lære forskere i dag.
Literary Digest var en populær almen interesse magasin, og første gang i 1920, de begyndte at køre halm meningsmålinger til at forudsige resultaterne af præsidentvalget. For at gøre disse forudsigelser de ville sende stemmesedler til masser af mennesker, og derefter blot tally op stemmesedlerne, der blev returneret, Literary Digest stolt rapporterede, at stemmesedlerne de modtog var hverken "vægtet, justeret, og heller ikke tolkes." Denne procedure korrekt forudsagde vinderen af valget i 1920, 1924, 1928 og 1932. i 1936, midt i den store depression, litterære Digest sendt ud stemmesedler til 10 millioner mennesker, hvis navne overvejende kom fra telefonbøger og registrering bil registreringer. Her er hvordan de beskrev deres metode:
"Digest s letløbende flytter maskine med hurtig præcision af tredive års erfaring til at reducere gætteri til hårde kendsgerninger. . . .Denne Uge 500 kuglepenne ridset mere end en kvart million adresser om dagen. Hver dag, i et stort værelse højt over motor-ribboned Fourth Avenue i New York, 400 arbejdere behændigt glide en million stykker af tryksager-nok til at bane fyrre gader-ind de adresserede indhyller [sic]. Hver time, i Digest'S egen Post Office Substation, tre snakkende frankering maskiner forseglet og stemplet de hvide oblongs; dygtige postale medarbejdere vendt dem til svulmende mailsacks; flåde Digest lastbiler drønede dem til at udtrykke mail-tog. . . I næste uge vil de første svar fra disse ti millioner begynde indgående tidevand afmærkede stemmesedler, at være triple-kontrolleret, verificeret, cross-klassificeret fem gange og udgjorde. Når det sidste tal er blevet totted og kontrolleret, hvis tidligere erfaringer er et kriterium, vil landet kender til inden for en brøkdel af en procent selve folkeafstemning fyrre millioner [vælgere]. "(August 22, 1936)
Den Digest fetichisering størrelse er øjeblikkeligt genkendelig for enhver "big data" forsker i dag. Af de 10 millioner stemmesedler fordelt, blev en forbløffende 2,4 millioner stemmesedler returneret-det er omtrent 1.000 gange større end moderne politiske meningsmålinger. Ud fra disse 2,4 millioner respondenter dommen var klar: Literary Digest forudsagde, at udfordreren Alf Landon ville besejre den siddende Franklin Roosevelt. Men i virkeligheden det stik modsatte sket. Roosevelt besejrede Landon i et jordskred. Hvordan kunne Literary Digest gå galt med så mange data? Vores moderne forståelse af sampling gør Literary Digest s fejl klar og hjælper os med at undgå at gøre lignende fejl i fremtiden.
Tænker klart om prøveudtagning kræver, at vi overveje fire forskellige grupper af mennesker (Figur 3.1). Den første gruppe af mennesker er målgruppen; det er den gruppe, som forskningen definerer som populationen af interesse. I tilfælde af litterære Digest målgruppen var vælgerne i 1936 præsidentvalget. Efter at have besluttet på en målgruppe, en forsker ved siden nødt til at udvikle en liste over personer, der kan bruges til prøvetagning. Denne liste kaldes en sampling ramme og befolkningen på rammen prøvetagning kaldes rammen befolkning. I tilfælde af litterære Digest rammen befolkning var de 10 millioner mennesker, hvis navne kom overvejende fra telefonbøger og registrering bil registreringer. Ideelt målpopulationen og rammen befolkning vil være nøjagtig den samme, men i praksis er dette ofte ikke tilfældet. Forskelle mellem målgruppen og ramme befolkningen kaldes dækning fejl. Dækning fejl ikke i sig selv garanterer problemer. Men hvis folk i rammen befolkning er systematisk forskellige fra folk ikke i rammen befolkning vil der være dækning bias. Dækning fejl var den første af de store fejl med den litterære Digest meningsmåling. De ønskede at lære om vælgerne-der var deres målgruppe-men de konstrueret en sampling ramme overvejende fra telefonbøger og bil registre, kilder, at overrepræsenteret rigere amerikanere, der var mere tilbøjelige til at støtte Alf Landon (husk at begge disse teknologier, som er fælles i dag, var relativt nyt på det tidspunkt, og at USA var midt i den store depression).
Efter at have defineret rammen befolkning, er næste skridt er for en forsker at vælge prøven befolkning; det er disse mennesker, som forskeren vil forsøge at interviewe. Hvis prøven har forskellige egenskaber end rammen befolkning, så kan vi introducere sampling fejl. Det er den slags fejl kvantificeret i fejlmargen, der normalt ledsager skøn. I tilfældet med den litterære Digest fiasko, der faktisk var ingen prøve; de forsøgte at kontakte alle i rammen befolkning. Selvom der ikke var nogen sampling fejl, var der naturligvis stadig fejl. Dette tydeliggør, at margenerne for fejl, der typisk rapporteret med estimater fra undersøgelser er som regel misvisende små; de omfatter ikke alle fejlkilder.
Endelig en forsker forsøger at interviewe alle i prøven populationen. Disse mennesker, som med held interviewet kaldes respondenter. Ideelt set ville prøvepopulationen og de adspurgte være nøjagtig den samme, men i praksis er der ikke-respons. Det vil sige, folk, der er udvalgt til stikprøven, nægter at deltage. Hvis de mennesker, der reagerer, er forskellige fra dem, der ikke reagerer, så der kan være ikke-respons bias. Bortfald skævhed var den anden største problem med Literary Digest meningsmåling. Kun 24% af de mennesker, der har modtaget en stemmeseddel reagerede, og det viste sig, at folk, der støttede Landon var mere tilbøjelige til at reagere.
Beyond blot at være et eksempel for at introducere ideer repræsentation, litterære Digest meningsmåling er en ofte gentaget lignelse, advarer forskerne om farerne ved tilfældig prøveudtagning. Jeg tror desværre, at den lektie, at mange mennesker drage af denne historie er den forkerte. Den mest almindelige moralske af historien er, at forskerne ikke kan lære noget fra ikke-sandsynlighed prøver (dvs. prøver uden strenge sandsynlighed-baserede regler for udvælgelsen af deltagere). Men, som jeg vil vise senere i dette kapitel, det er ikke helt rigtigt. I stedet tror jeg, der er virkelig to moral til denne historie; moral, der er så sandt i dag, som de var i 1936. For det første vil en stor mængde tilfældigt indsamlede data ikke garantere et godt estimat. For det andet, forskerne nødt til at redegøre for, hvordan deres data blev indsamlet, når de gør estimater fra det. Med andre ord, fordi indsamlingen af data i Literary Digest meningsmåling systematisk blev skæv mod nogle af de adspurgte, forskere nødt til at bruge en mere kompleks skøn proces at vægte nogle respondenter mere end andre. Senere i dette kapitel, vil jeg vise dig en sådan vægtning procedure-post-stratificering-, der kan gøre det muligt for dig at foretage et bedre skøn med ikke-stikprøver med tilfældig udvælgelse.