Het digitale tijdperk maakt probabiliteitssteekproeven in de praktijk moeilijker en creëert nieuwe mogelijkheden voor het nemen van niet-waarschijnlijkheidsmonsters.
In de geschiedenis van de bemonstering zijn er twee concurrerende benaderingen geweest: probabiliteitssteekproefmethoden en niet-waarschijnlijkheidssteekproefmethoden. Hoewel beide benaderingen werden gebruikt in de eerste dagen van de bemonstering, is waarschijnlijkheidsbemonstering dominant geworden en veel sociale onderzoekers hebben geleerd om niet-waarschijnlijkheidssteekproeven met grote scepsis te bekijken. Zoals ik hieronder echter zal beschrijven, zorgen veranderingen die zijn ontstaan door het digitale tijdperk ervoor dat het tijd is voor onderzoekers om niet-waarschijnlijkheidssteekproeven te heroverwegen. Met name probabiliteitssteekproeven zijn in de praktijk moeilijk te doen geworden en het nemen van niet-waarschijnlijkheidsbemonsteringen is sneller, goedkoper en beter geworden. Snellere en goedkopere enquêtes zijn niet alleen een doel op zich: ze bieden nieuwe kansen, zoals frequentere enquêtes en grotere steekproefgroottes. Door bijvoorbeeld niet-waarschijnlijkheidsmethoden toe te passen, kan de Cooperative Congressional Election Study (CCES) ongeveer 10 keer meer deelnemers hebben dan eerdere studies met probabiliteitssteekproeven. Met dit veel grotere voorbeeld kunnen politieke onderzoekers variatie in attitudes en gedrag in subgroepen en sociale contexten bestuderen. Verder kwam al deze toegevoegde schaal zonder afname van de kwaliteit van schattingen (Ansolabehere and Rivers 2013) .
Momenteel is de bemonstering op basis van waarschijnlijkheid de dominante benadering van bemonstering voor sociaal onderzoek. Bij kanssteekproeven hebben alle leden van de doelpopulatie een bekende, niet-nulwaarschijnlijkheid om te worden bemonsterd, en alle mensen die worden bemonsterd, reageren op de enquête. Wanneer aan deze voorwaarden is voldaan, bieden elegante wiskundige resultaten aantoonbare garanties over het vermogen van een onderzoeker om de steekproef te gebruiken om conclusies te trekken over de doelpopulatie.
In de echte wereld wordt echter zelden voldaan aan de voorwaarden die aan deze wiskundige resultaten ten grondslag liggen. Er zijn bijvoorbeeld vaak dekkingsfouten en non-respons. Vanwege deze problemen moeten onderzoekers vaak een verscheidenheid aan statistische aanpassingen gebruiken om de inferentie van hun steekproef af te stemmen op hun doelpopulatie. Het is dus belangrijk om een onderscheid te maken tussen waarschijnlijkheidsbemonstering in theorie , die sterke theoretische garanties heeft en probabiliteitssteekproeven in de praktijk , die dergelijke garanties niet bieden en afhankelijk is van een verscheidenheid aan statistische aanpassingen.
In de loop van de tijd zijn de verschillen tussen de kansberekening in theorie en de kansberekening in de praktijk toegenomen. Zo stegen de non-responscijfers gestaag, zelfs in hoogwaardige, dure enquêtes (figuur 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Non-responscijfers zijn veel hoger in commerciële telefonische enquêtes - soms zelfs tot 90% (Kohut et al. 2012) . Deze toenames in non-respons bedreigen de kwaliteit van schattingen omdat de schattingen in toenemende mate afhankelijk zijn van de statistische modellen die onderzoekers gebruiken om zich aan te passen voor non-respons. Verder zijn deze kwaliteitsdalingen gebeurd ondanks steeds duurder wordende pogingen van survey-onderzoekers om hoge responspercentages te handhaven. Sommige mensen zijn bang dat deze tweelingtrends van afnemende kwaliteit en toenemende kosten de basis van survey-onderzoek (National Research Council 2013) bedreigen.
Tegelijkertijd is er sprake van toenemende problemen bij de probabiliteitssteekproeven, maar er zijn ook spannende ontwikkelingen geweest in de probabiliteitsmonsters . Er zijn verschillende methoden voor niet-probabiliteitssteekproeven, maar het enige dat ze gemeen hebben, is dat ze niet gemakkelijk kunnen passen in het wiskundige kader van kanssteekproeven (Baker et al. 2013) . Met andere woorden, in niet-probabiliteitssteekproefmethoden heeft niet iedereen een bekende en niet-nulwaarschijnlijkheid van inclusie. Niet-probabiliteitssteekproefmethoden hebben een vreselijke reputatie bij sociale onderzoekers en ze worden geassocieerd met enkele van de meest dramatische mislukkingen van survey-onderzoekers, zoals het fiasco Literary Digest (eerder besproken) en 'Dewey Defeats Truman', de onjuiste voorspelling over de VS presidentsverkiezingen van 1948 (figuur 3.6).
Een vorm van niet-waarschijnlijkheidsbemonstering die bijzonder geschikt is voor het digitale tijdperk, is het gebruik van online panels . Onderzoekers die online panels gebruiken, zijn afhankelijk van een panelprovider (meestal een bedrijf, een overheid of een universiteit) om een grote, diverse groep mensen samen te stellen die ermee instemmen om te dienen als respondenten voor enquêtes. Deze paneldeelnemers worden vaak gerekruteerd met behulp van een verscheidenheid aan ad hoc-methoden, zoals online banneradvertenties. Vervolgens kan een onderzoeker de panelprovider betalen voor toegang tot een steekproef van respondenten met gewenste kenmerken (bijvoorbeeld nationaal representatief voor volwassenen). Deze online panels zijn niet-waarschijnlijkheidsmethoden omdat niet iedereen een bekende, niet-nulwaarschijnlijkheid van opname heeft. Hoewel panel panels met onwaarschijnlijkheid al door sociale onderzoekers worden gebruikt (bijv. De CCES), is er nog steeds enige discussie over de kwaliteit van de schattingen die daaruit voortkomen (Callegaro et al. 2014) .
Ondanks deze debatten, denk ik dat er twee redenen zijn waarom de tijd rijp is voor sociale onderzoekers om niet-waarschijnlijkheidssteekproeven te heroverwegen. Ten eerste zijn er in het digitale tijdperk veel ontwikkelingen geweest in de verzameling en analyse van niet-waarschijnlijkheidsmonsters. Deze nieuwere methoden verschillen voldoende van de methoden die in het verleden problemen veroorzaakten, en ik denk dat het zinvol is om ze te beschouwen als 'niet-waarschijnlijkheidsbemonstering 2.0'. De tweede reden waarom onderzoekers de niet-waarschijnlijkheidsbemonstering moeten heroverwegen, is omdat kanssteekproeven in oefenen wordt steeds moeilijker. Wanneer er hoge non-responspercentages zijn - zoals nu in echte enquêtes - zijn de werkelijke kansen op inclusie voor respondenten niet bekend, en dus zijn kanssteekproeven en niet-waarschijnlijkheidssteekproeven niet zo verschillend als veel onderzoekers denken.
Zoals ik eerder zei, worden niet-waarschijnlijkheidsmonsters door veel sociale onderzoekers met grote scepsis bekeken, deels vanwege hun rol in enkele van de meest gênante mislukkingen in de eerste dagen van survey-onderzoek. Een duidelijk voorbeeld van hoe ver we zijn gekomen met niet-waarschijnlijkheidsmonsters is het onderzoek van Wei Wang, David Rothschild, Sharad Goel en Andrew Gelman (2015) die de uitslag van de Amerikaanse verkiezingen van 2012 correct hebben teruggewonnen met een niet-waarschijnlijkheidsvoorbeeld van Amerikaanse Xbox-gebruikers - een beslist niet-zomaar staaltje Amerikanen. De onderzoekers wierven respondenten van het XBox-spelsysteem, en zoals je zou verwachten, vertoonde de Xbox-steekproef een scheve man en een scheve jongere: 18- tot 29-jarigen vormen 19% van het electoraat, maar 65% van de Xbox-steekproef, en mannen make-up 47% van het electoraat, maar 93% van het Xbox-monster (figuur 3.7). Vanwege deze sterke demografische vertekeningen waren de onbewerkte Xbox-gegevens een slechte indicator voor verkiezingsrendementen. Het voorspelde een sterke overwinning voor Mitt Romney boven Barack Obama. Nogmaals, dit is een ander voorbeeld van de gevaren van onbewerkte, niet-aangepaste niet-waarschijnlijkheidsmonsters en doet denken aan het literaire digest- fiasco.
Wang en collega's waren zich echter bewust van deze problemen en probeerden zich aan te passen voor hun niet-willekeurige steekproefproces bij het maken van schattingen. Ze gebruikten met name poststratificatie , een techniek die ook veel wordt gebruikt om kanssteekproeven aan te passen die dekkingsfouten en non-respons hebben.
Het belangrijkste idee van poststratificatie is om hulpinformatie over de doelpopulatie te gebruiken om de schatting van een steekproef te verbeteren. Bij het gebruik van poststratificatie om schattingen te maken van hun steekproef met niet-waarschijnlijkheid, hakten Wang en collega de bevolking in verschillende groepen, schatten ze de steun voor Obama in elke groep en namen ze vervolgens een gewogen gemiddelde van de groepschattingen om een algehele schatting te produceren. Ze hadden bijvoorbeeld de bevolking in twee groepen kunnen splitsen (mannen en vrouwen), schatten de steun voor Obama bij mannen en vrouwen, en schatten de algehele steun voor Obama door een gewogen gemiddelde te nemen om rekening te houden met het feit dat vrouwen 53% van het electoraat en mannen 47%. Ruwweg helpt post-stratificatie bij het corrigeren van een ongebalanceerd monster door hulpinformatie in te brengen over de grootte van de groepen.
De sleutel tot poststratificatie is om de juiste groepen te vormen. Als u de populatie in homogene groepen kunt indelen, zodat de responspropensiteiten hetzelfde zijn voor iedereen in elke groep, dan zal poststratificatie onbevooroordeelde schattingen opleveren. Met andere woorden, poststratificatie naar geslacht levert onbevooroordeelde schattingen op als alle mannen de responsgeneigdheid hebben en alle vrouwen dezelfde responsgeneigdheid hebben. Deze veronderstelling wordt de veronderstelling van de homogene respons-neigingen-in-groepen genoemd en ik beschrijf het een beetje meer in de wiskundige noten aan het einde van dit hoofdstuk.
Het lijkt natuurlijk onwaarschijnlijk dat de reactie-neigingen hetzelfde zullen zijn voor alle mannen en alle vrouwen. De veronderstelling van homogene respons-neigingen tussen groepen wordt echter plausibeler naarmate het aantal groepen toeneemt. Grofweg wordt het gemakkelijker om de populatie in homogene groepen te hakken als je meer groepen maakt. Het lijkt bijvoorbeeld onwaarschijnlijk dat alle vrouwen dezelfde responsgevoeligheid hebben, maar het lijkt misschien meer aannemelijk dat er dezelfde responspropheid is voor alle vrouwen tussen 18 en 29 jaar, die afgestudeerd zijn aan de universiteit en die in Californië wonen . Aangezien het aantal groepen dat wordt gebruikt in poststratificatie groter wordt, worden de aannames die nodig zijn om de methode te ondersteunen dus redelijker. Gezien dit feit willen onderzoekers vaak een groot aantal groepen creëren voor poststratificatie. Naarmate het aantal groepen toeneemt, komen onderzoekers echter in een ander probleem terecht: gegevenszwakte. Als er slechts een klein aantal mensen in elke groep is, zijn de schattingen onzekerder en in het extreme geval waarin er een groep is die geen respondenten heeft, breekt de poststratificatie volledig af.
Er zijn twee manieren om uit deze inherente spanning tussen de aannemelijkheid van de aanname van homogene respons, geneigdheid-binnen-groepen en de vraag naar redelijke steekproefomvang in elke groep, te komen. Ten eerste kunnen onderzoekers een groter, meer divers monster verzamelen, wat helpt zorgen voor redelijke steekproefgroottes in elke groep. Ten tweede kunnen ze een geavanceerder statistisch model gebruiken voor het maken van schattingen binnen groepen. En, inderdaad, soms doen onderzoekers beide, zoals Wang en collega's deden met hun onderzoek naar de verkiezingen met behulp van respondenten van Xbox.
Omdat ze een steekproefmethode met niet-waarschijnlijkheid gebruikten met door de computer beheerde interviews (ik zal in sectie 3.5 meer praten over door computers beheerde interviews), hadden Wang en collega's een zeer goedkope gegevensverzameling, waardoor ze informatie konden verzamelen van 345.858 unieke deelnemers , een enorm aantal volgens de normen van verkiezingsopvolging. Deze enorme steekproefomvang stelde hen in staat een enorm aantal groepen na de stratificatie te vormen. Terwijl poststratificatie meestal het hakken van de bevolking in honderden groepen omvat, verdeelden Wang en collega's de populatie in 176.256 groepen gedefinieerd door geslacht (2 categorieën), ras (4 categorieën), leeftijd (4 categorieën), onderwijs (4 categorieën), (51 categorieën), partij-ID (3 categorieën), ideologie (3 categorieën) en 2008 stemming (3 categorieën). Met andere woorden, hun enorme steekproefomvang, die mogelijk werd gemaakt door goedkope gegevensverzameling, stelde hen in staat om een meer plausibele aanname te doen in hun schattingsproces.
Zelfs met 345.858 unieke deelnemers waren er echter nog steeds vele groepen waarvoor Wang en collega's bijna geen respondenten hadden. Daarom hebben ze een techniek met de naam multilevel-regressie gebruikt om de ondersteuning in elke groep te schatten. Om de steun voor Obama binnen een specifieke groep te schatten, verzamelde de multiniveau-regressie informatie van veel nauw verwante groepen. Stel je bijvoorbeeld voor dat je de steun voor Obama probeert te schatten bij vrouwelijke Hispanics tussen 18 en 29 jaar oud, die afgestudeerden zijn, die geregistreerde Democraten zijn, die zichzelf identificeren als gematigden, en die in 2008 voor Obama hebben gestemd. Dit is een zeer , zeer specifieke groep, en het is mogelijk dat er niemand in de steekproef met deze kenmerken is. Daarom maakt multilevel-regressie voor het maken van schattingen over deze groep een statistisch model om ramingen samen te voegen van mensen in zeer vergelijkbare groepen.
Dus, Wang en collega's gebruikten een aanpak die regressie op meerdere niveaus en post-stratificatie combineerde, dus noemden ze hun strategie multilevel regressie met post-stratificatie of, meer liefkozend, "Mr. P. "Toen Wang en collega's Dhr. P. gebruikten om schattingen te maken van de XBox-steekproef met niet-waarschijnlijkheid, produceerden ze schattingen die heel dicht bij de algemene steun lagen die Obama bij de verkiezingen van 2012 ontving (figuur 3.8). Hun schattingen waren zelfs nauwkeuriger dan een verzameling traditionele opiniepeilingen. Dus, in dit geval, lijken statistische aanpassingen, met name de heer P., goed werk te leveren door de vooroordelen in de gegevens van de onwaarschijnlijkheid te corrigeren; vooroordelen die duidelijk zichtbaar waren als u de schattingen van de niet-gecorrigeerde Xbox-gegevens bekijkt.
Er zijn twee hoofdlessen uit de studie van Wang en collega's. Ten eerste kunnen niet-gecorrigeerde niet-waarschijnlijkheidsmonsters tot slechte schattingen leiden; dit is een les die veel onderzoekers eerder hebben gehoord. De tweede les is echter dat niet-waarschijnlijkheidsmonsters, mits goed geanalyseerd, ook goede schattingen kunnen opleveren; niet-waarschijnlijkheidsstalen hoeven niet automatisch te leiden tot iets als het fiasco Literaire samenvatting.
In de toekomst, als u probeert te kiezen tussen een probabiliteitssteekproefbenadering en een niet-waarschijnlijkheidssteekproefbenadering, staat u voor een moeilijke keuze. Soms willen onderzoekers een snelle en rigide regel (gebruik bijvoorbeeld altijd probabiliteitssteekproefmethoden), maar het wordt steeds moeilijker om zo'n regel aan te bieden. Onderzoekers worden in de praktijk geconfronteerd met een moeilijke keuze tussen probabiliteitsbemonsteringsmethoden - die steeds duurder worden en ver verwijderd zijn van de theoretische resultaten die hun gebruik- en niet-waarschijnlijkheidssteekproefmethoden rechtvaardigen - die goedkoper en sneller zijn, maar minder vertrouwd en gevarieerder. Eén ding is echter duidelijk: als je gedwongen wordt om met niet-waarschijnlijkheidsmonsters of niet-representatieve big data-bronnen te werken (denk terug aan hoofdstuk 2), dan is er een sterke reden om aan te nemen dat schattingen gemaakt met behulp van post-stratificatie en gerelateerde technieken zullen beter zijn dan niet-gecorrigeerde, ruwe schattingen.