Vertegenwoordiging is over het maken van gevolgtrekkingen uit uw respondenten naar uw doelgroep.
Om de aard van de fouten te begrijpen die kunnen optreden bij het afleiden van respondenten naar de grotere populatie, laten we eens kijken naar de stroopvraag van Literary Digest die probeerde de uitkomst van de Amerikaanse presidentsverkiezingen in 1936 te voorspellen. Hoewel het meer dan 75 jaar geleden gebeurde, heeft dit debacle nog steeds een belangrijke les om onderzoekers vandaag te onderwijzen.
Literary Digest was een populair tijdschrift van algemene interesse en begon in 1920 met stro-polls om de uitkomsten van presidentsverkiezingen te voorspellen. Om deze voorspellingen te doen, stuurden ze stembiljetten naar veel mensen en berekenden ze eenvoudig de gestempelde stembiljetten; Literary Digest meldde trots dat de gestemde stemmen niet "gewogen, aangepast of geïnterpreteerd" waren. Deze procedure voorspelde correct de winnaars van de verkiezingen in 1920, 1924, 1928 en 1932. In 1936, midden in de Grote Depressie, Literair Digest stuurde stembiljetten naar 10 miljoen mensen, wiens namen voornamelijk afkomstig waren uit telefoongidsen en registraties van auto's. Hier is hoe zij hun methodologie beschreven:
"De soepel lopende machine van The DIGEST beweegt met de snelle precisie van dertig jaar ervaring om giswerk tot harde feiten te verminderen ... Deze week hebben 500 pennen meer dan een kwart miljoen adressen per dag ingekrast. Elke dag schuiven 400 arbeiders in een grote zaal hoog boven de met motoren versierde Fourth Avenue in New York handig een miljoen stukjes drukwerk-genoeg om veertig stadsblokken te leggen - in de geadresseerde enveloppen [sic]. Elk uur, in THE DIGEST'S eigen Postkantoor-onderstation, verzegelden en stempelden drie klappende frankeermachines de witte langwerpige stukken; bekwame postbeambten brachten ze om in uitpuilende mailsacks; vloot DIGEST-vrachtwagens brachten ze door om posttreinen uit te drukken. . . Volgende week zullen de eerste antwoorden van deze tien miljoen beginnen aan de vloed van gemarkeerde stembiljetten, die drievoudig worden gecontroleerd, geverifieerd, vijf keer geclassifieerd en getotaliseerd. Wanneer het laatste cijfer is bereikt en gecontroleerd, als ervaring uit het verleden een criterium is, weet het land binnen een fractie van 1 procent de werkelijke populaire stem van veertig miljoen [kiezers]. "(22 augustus 1936)
Literary Digest's fetisjisering van de grootte is onmiddellijk herkenbaar voor elke "big data" -onderzoeker van vandaag. Van de 10 miljoen gesteelde biljetten werden er maar liefst 2,4 miljoen teruggestuurd - dat is ongeveer 1.000 keer groter dan de moderne politieke peilingen. Van deze 2,4 miljoen respondenten was het vonnis duidelijk: Alf Landon zou de zittende Franklin Roosevelt verslaan. Maar in feite versloeg Roosevelt Landon in een aardverschuiving. Hoe kan Literary Digest verkeerd gaan met zoveel gegevens? Ons moderne begrip van steekproeven maakt de fouten van Literary Digest duidelijk en helpt ons in de toekomst soortgelijke fouten te voorkomen.
Als u duidelijk nadenkt over monstername, moeten vier verschillende groepen mensen worden beschouwd (figuur 3.2). De eerste groep is de doelpopulatie ; dit is de groep die de onderzoeker definieert als de populatie van belang. In het geval van Literary Digest was de doelpopulatie kiezers in de presidentsverkiezingen van 1936.
Na het beslissen over een doelpopulatie moet een onderzoeker een lijst van mensen ontwikkelen die kunnen worden gebruikt voor bemonstering. Deze lijst wordt een steekproefkader genoemd en de mensen erop worden de framepopulatie genoemd . Idealiter zouden de doelpopulatie en de framepopulatie exact hetzelfde zijn, maar in de praktijk is dit vaak niet het geval. Bijvoorbeeld, in het geval van Literary Digest was de framepopulatie de 10 miljoen mensen van wie de namen voornamelijk afkomstig waren uit telefoongidsen en registraties van auto's. Verschillen tussen de doelpopulatie en de framepopulatie worden dekkingsfout genoemd. Dekkingsfout is op zich geen garantie voor problemen. Het kan echter leiden tot een dekkingsbias als mensen in de framepopulatie systematisch verschillen van mensen in de doelpopulatie die zich niet in de framepopulatie bevinden. Dit is in feite precies wat er gebeurde in de poll van Literary Digest . De mensen in hun framepopulatie hadden de neiging Alf Landon eerder te ondersteunen, deels omdat ze rijker waren (herinner dat zowel telefoons als auto's relatief nieuw en duur waren in 1936). Dus, in de Literary Digest- peiling leidde dekkingsfout tot dekkingsbias.
Na het definiëren van de framepopulatie , is de volgende stap voor een onderzoeker om de steekproefpopulatie te selecteren; dit zijn de mensen die de onderzoeker zal proberen te interviewen. Als het monster andere kenmerken heeft dan de framepopulatie, kan sampling een steekproeffout introduceren. In het geval van het fiasco Literary Digest was er echter geen sampling - het magazine om contact op te nemen met iedereen in de framepopulatie - en daarom was er geen steekproeffout. Veel onderzoekers hebben de neiging zich te concentreren op steekproeffouten - dit is typisch de enige soort fout die wordt vastgelegd door de foutenmarge die wordt gerapporteerd in enquêtes - maar het fiasco Literaire samenvatting herinnert ons eraan dat we alle foutenbronnen, zowel willekeurig als systematisch, moeten beschouwen.
Uiteindelijk probeert een onderzoeker na het selecteren van een steekproefpopulatie al zijn leden te interviewen. Degenen die met succes worden geïnterviewd, worden respondenten genoemd . Idealiter zouden de steekproefpopulatie en de respondenten precies hetzelfde zijn, maar in de praktijk is er geen respons. Dat wil zeggen dat mensen die in de steekproef zijn geselecteerd, soms niet deelnemen. Als de mensen die reageren anders zijn dan degenen die niet reageren, kan er sprake zijn van non-responsbias . Non-responsbias was het tweede grootste probleem met de Literary Digest- peiling. Slechts 24% van de mensen die een stemronde ontvingen, reageerde en het bleek dat mensen die Landon ondersteunden, eerder reageerden.
Behalve dat het een voorbeeld is om de ideeën van representatie te introduceren, is de Literary Digest- peiling een vaak herhaalde gelijkenis, waarbij onderzoekers worden gewaarschuwd voor de gevaren van willekeurige steekproeven. Helaas denk ik dat de les die veel mensen uit dit verhaal trekken de verkeerde is. De meest voorkomende moraal van het verhaal is dat onderzoekers niets kunnen leren van niet-waarschijnlijkheidsmonsters (dat wil zeggen, monsters zonder strenge, op kansberekening gebaseerde regels voor het selecteren van deelnemers). Maar, zoals ik verderop in dit hoofdstuk zal laten zien, dat klopt niet helemaal. In plaats daarvan denk ik dat er echt twee morele waarden zijn aan dit verhaal; morele waarden die vandaag zo waar zijn als in 1936. Ten eerste zullen een grote hoeveelheid lukraak verzamelde gegevens geen goede schatting garanderen. Over het algemeen neemt een groot aantal respondenten de variantie van schattingen af, maar dit neemt niet noodzakelijk de vertekening weg. Met veel gegevens kunnen onderzoekers soms een nauwkeurige schatting van het verkeerde krijgen; ze kunnen precies onnauwkeurig zijn (McFarland and McFarland 2015) . De tweede hoofdles van het fiasco Literary Digest is dat onderzoekers moeten verantwoorden hoe hun steekproef werd verzameld bij het maken van schattingen. Met andere woorden, omdat het bemonsteringsproces in de Literary Digest- peiling systematisch scheef was voor sommige respondenten, moesten onderzoekers een meer complex schattingsproces gebruiken dat sommige respondenten zwaarder woog dan andere. Later in dit hoofdstuk zal ik u een dergelijke wegingsprocedure laten zien - post-stratificatie - waarmee u betere schattingen kunt maken van willekeurige steekproeven.