Prawdopodobieństwo próbki i próbki bez prawdopodobieństwa nie różnią się w praktyce; w obu przypadkach, to wszystko o wagach.
Sampling jest podstawą do badania badania. Naukowcy prawie nigdy nie zadać swoje pytania dla każdego w ich populacji docelowej. W związku z tym badania nie jest wyjątkowa. Większość badań, w taki czy inny sposób, polega próbkowanie. Czasami próbkowanie odbywa się jawnie przez badacza; czasami zdarza się niejawnie. Na przykład, naukowiec, który prowadzi laboratorium eksperyment na studentów w swoim uniwersytecie podjęła również próbę. Zatem próbkowania jest to problem, który pojawia się w tej książce. W rzeczywistości, jeden z najczęstszych problemów, które słyszę o cyfrowych źródeł wiekowych danych jest "nie są reprezentatywne." Jak zobaczymy w tym rozdziale, to problemem jest zarówno mniej poważne i bardziej subtelny niż wielu sceptyków zrealizować. W rzeczywistości, będę argumentować, że cała koncepcja "reprezentatywności" nie jest pomocne dla myślenia o prawdopodobieństwie i nie prawdopodobieństwa próbek. Zamiast tego, kluczowe jest, aby myśleć o tym, jak dane były zbierane i jak wszelkie uprzedzenia w tym gromadzenie danych może zostać cofnięte przy dokonywaniu szacunków.
Obecnie dominującym teoretyczne podejście do reprezentacji jest pobieranie próbek prawdopodobieństwa. Gdy dane są zbierane za pomocą metody próbkowania prawdopodobieństwo, że zostało perfekcyjnie wykonane, naukowcy są w stanie ważyć swoje dane w oparciu o sposób, w jaki zostały one zebrane, aby bezstronne szacunki dotyczące populacji docelowej. Jednak idealne próbkowania prawdopodobieństwo zasadzie nigdy nie zdarza się w prawdziwym świecie. Są to zazwyczaj dwa główne problemy 1) różnice w populacji docelowej oraz ludności stelaż i 2) braku odpowiedzi (są to dokładnie te problemy, które zniszczył ankieta Literary Digest). Tak więc, zamiast myśleć o wyborze probabilistycznym jako realistycznego modelu, co tak naprawdę dzieje się w świecie, to lepiej pomyśleć o wyborze probabilistycznym jako pomocne, teoretycznego modelu, podobnie jak sposób fizycy myśleć o tarcia piłkę toczącą się nieskończenie długa rampa.
Alternatywą do pobierania próbek prawdopodobieństwo jest pobieranie próbek bez prawdopodobieństwa. Główną różnicą między prawdopodobieństwem i pobierania próbek innych niż prawdopodobieństwo jest, że przy wyborze probabilistycznym wszystkich w populacji ma znane prawdopodobieństwo włączenia. Są to w rzeczywistości, wiele odmian bez próbkowania prawdopodobieństwie i te metody zbierania danych staje się coraz bardziej powszechny w wieku cyfrowego. Ale próbkowania niż prawdopodobieństwo ma straszną reputację wśród socjologów i statystyków. W rzeczywistości, próbkowanie zakaz prawdopodobieństwo jest związane z niektórymi z najbardziej dramatycznych niepowodzeń naukowców badań, takich jak fiasko Literary Digest (omówione wcześniej), a nieprawidłowy przewidywania na temat wyborów prezydenckich w USA w 1948 ( "Dewey Porażki Trumana") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Jednakże, jest to właściwy moment do ponownego próbkowania nie prawdopodobieństwa z dwóch powodów. Po pierwsze, jak próbki prawdopodobieństwa stają się coraz bardziej trudne do wykonania w praktyce, linia pomiędzy próbkami prawdopodobieństwa i próbek nie jest prawdopodobieństwo rozmycia. Gdy istnieją wysokie wskaźniki braku odpowiedzi (jak są teraz w prawdziwych badaniach), rzeczywiste prawdopodobieństwo inkluzji dla respondentów nie są znane, a zatem prawdopodobieństwo, próbki i próbki bez prawdopodobieństwa nie są tak różne, jak wielu badaczy uważa. W rzeczywistości, jak zobaczymy poniżej, oba podejścia w zasadzie opierają się na tej samej metody szacowania: post-stratyfikacji. Po drugie, doszło do wielu zmian w zakresie zbierania i analizy próbek bez prawdopodobieństwa. Metody te są na tyle różni się od metod, które spowodowały problemy w przeszłości, że myślę, że to ma sens, aby myśleć o nich jako "pobieranie próbek bez prawdopodobieństwa 2.0." Nie powinniśmy mieć irracjonalną niechęć do metod bez prawdopodobieństwa z powodu błędów, które miały miejsce dawno temu.
Następnie, w celu uczynienia ten argument bardziej konkretne, będę przeglądu standardowego próbkowania prawdopodobieństwa i wagi (rozdział 3.4.1). Kluczową ideą jest to, w jaki sposób zebrano dane powinny wpływać na sposób dokonywania szacunków. W szczególności, jeśli nie wszyscy mają takie samo prawdopodobieństwo włączenia, to każdy nie powinien mieć taką samą wagę. Innymi słowy, jeśli kontrola wyrywkowa nie jest demokratyczny, to twoje szacunki nie powinna być demokratyczna. Po zapoznaniu się ważenie, opiszę dwa podejścia do pobierania próbek nie prawdopodobieństwa: taki, który skupia się na ważeniu, aby poradzić sobie z problemem przypadkowo zebranych danych (sekcja 3.4.2), oraz jeden, który próbuje umieścić większą kontrolę nad tym, w jaki sposób dane są zebrane (sekcja 3.4.3). Argumenty w głównym tekście zostanie wyjaśnione poniżej słów i obrazów; Czytelnicy, którzy chcieliby leczenie bardziej matematyczny powinien również zobaczyć dodatku technicznym.