Waarschijnlijkheid monsters en niet-kans monsters zijn niet zo verschillend in de praktijk; in beide gevallen, het is allemaal over de gewichten.
Sampling is fundamenteel voor onderzoek enquête. Onderzoekers bijna nooit hun vragen te stellen aan iedereen in hun doelgroep. In dit verband onderzoeken zijn niet uniek. Het meeste onderzoek op de een of andere manier, omvat bemonstering. Soms wordt deze bemonstering wordt expliciet gedaan door de onderzoeker; andere keer gebeurt impliciet. Zo heeft een onderzoeker dat een laboratorium experiment met studenten in haar universiteit heeft ook een monster genomen. Aldus is sampling een probleem dat opkomt in dit boek. In feite, een van de meest voorkomende problemen die ik hoor over digitale tijdperk bronnen van de gegevens is "ze zijn niet representatief." Zoals we zullen zien in deze afdeling, deze zorg is zowel minder ernstig en subtieler dan veel sceptici realiseren. In feite, zal ik betogen dat het hele concept van "representativiteit" is niet nuttig voor het denken over waarschijnlijkheid en niet-kans monsters. In plaats daarvan, de sleutel is om na te denken over de manier waarop de gegevens zijn verzameld en hoe eventuele vooroordelen in dat het verzamelen van gegevens ongedaan kunnen worden gemaakt bij het maken van schattingen.
Momenteel is de dominante theoretische benadering van de voorstelling is kanssteekproeven. Wanneer er gegevens worden verzameld met een waarschijnlijkheid sampling methode die perfect is uitgevoerd, de onderzoekers in staat zijn om hun gegevens te wegen op basis van de manier waarop ze werden verzameld om onpartijdige schattingen over de doelgroep te maken. Echter, perfect kanssteekproeven eigenlijk nooit gebeurt in de echte wereld. Er zijn meestal twee belangrijke problemen 1) de verschillen tussen de doelpopulatie en het frame bevolking en 2) non-respons (dit zijn precies de problemen die de Literaire Digest poll gesloopt). Dus, in plaats van te denken van kanssteekproeven als een realistisch model van wat er werkelijk gebeurt in de wereld, is het beter om te denken van kanssteekproeven als een nuttig, abstract model, net als de manier waarop fysici denken over een wrijvingsloze bal naar beneden rolt een oneindig lange oprit.
Het alternatief voor aselecte steekproeven niet-kanssteekproeven. Het belangrijkste verschil tussen waarschijnlijkheid en niet-kanssteekproeven dat met kans bemonstering iedereen in de populatie een bekende waarschijnlijkheid van integratie. Er zijn, in feite zijn veel variëteiten van niet-kanssteekproeven, en deze methoden voor het verzamelen van gegevens een steeds belangrijkere rol in het digitale tijdperk. Maar, niet-kanssteekproeven heeft een verschrikkelijke reputatie onder sociale wetenschappers en statistici. In feite is niet-aselecte steekproeven in verband met een aantal van de meest dramatische mislukkingen van onderzoek onderzoekers, zoals de Literaire Digest fiasco (eerder besproken) en de onjuiste voorspelling over de Amerikaanse presidentsverkiezingen van 1948 ( "Dewey Nederlagen Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Echter, de tijd rijp is om niet-kanssteekproeven heroverwegen om twee redenen. Ten eerste, zoals waarschijnlijkheid monsters steeds moeilijker geworden om te doen in de praktijk, de lijn tussen waarschijnlijkheid monsters en niet-kans monsters vervaagt. Als er een hoge mate van non-respons (want er zijn nu echt enquêtes), de daadwerkelijke kans op insluitsels voor de respondenten zijn niet bekend, en dus waarschijnlijkheid monsters en niet-kans monsters zijn niet zo verschillend als veel onderzoekers geloven. In feite, zoals we hieronder zullen zien, beide benaderingen in principe rekenen op dezelfde ramingsmethode: post-stratificatie. Ten tweede zijn er veel ontwikkelingen in de verzameling en analyse van niet-waarschijnlijkheid monsters geweest. Deze methoden zijn verschillend genoeg van de methoden die problemen veroorzaakt in het verleden dat ik denk dat het zinvol is om te denken van hen als "niet-kanssteekproeven 2.0." We moeten een irrationele afkeer van niet-waarschijnlijkheid methoden als gevolg van fouten dat gebeurde niet een lange tijd geleden.
Next, om dit argument meer concreet te maken, zal ik standaard kanssteekproeven en weging (paragraaf 3.4.1) te herzien. Het belangrijkste idee is dat de manier waarop u uw gegevens verzameld moet beïnvloeden hoe je schattingen te maken. Met name wanneer iedereen dezelfde kans integratie heeft, dan is iedereen niet hetzelfde gewicht. Met andere woorden, als je een steekproef is niet democratisch, dan is uw schattingen mag niet democratisch zijn. Na controle van de weging, zal ik twee benaderingen beschrijven niet-kanssteekproeven: één die zich richt op weging om te gaan met het probleem van lukraak verzamelde gegevens (paragraaf 3.4.2), en een die probeert om meer controle plaats over hoe de gegevens is verzameld (paragraaf 3.4.3). De argumenten in de hoofdtekst zal hierna met woorden en foto's te verklaren; lezers die graag een wiskundige behandeling moet ook de technische bijlage.