Mostras de probabilidade e mostras non probabilísticas non son tan diferentes na práctica; en ambos os casos, é todo sobre os pesos.
A mostraxe é fundamental para o levantamento de investigación. Investigadores case nunca facer as súas preguntas a todos na súa poboación obxectivo. A este respecto, estudos non son únicos. A maioría das investigacións, dunha forma ou doutra, implica mostraxe. Ás veces, esa mostraxe faise explícita polo investigador; outras veces isto acontece de forma implícita. Por exemplo, un investigador que executa un experimento de laboratorio sobre os estudantes de graduación na súa universidade tamén tomou unha mostra. Así, a mostraxe é un problema que xorde ao longo deste libro. De feito, unha das preocupacións máis comúns que escoito sobre fontes de idade dixital de datos é "non son representativos." Como veremos nesta Sección, esta preocupación é tanto menos grave e máis sutil do que moitos escépticos entender. En realidade, eu vou argumentar que todo o concepto de "representatividade" non é útil para pensar en mostras de probabilidade e non probabilidade. Pola contra, a clave é pensar sobre como os datos foron recollidos e como calquera prexuízos que a recollida de datos pode ser desfeita ao facer estimacións.
Actualmente, o enfoque teórico dominante a representación é mostraxe probabilística. Cando os datos son recollidos cun método de mostraxe probabilística, que foi perfectamente executada, os investigadores son capaces de ponderar os datos con base na forma que eles foron recollidas para facer estimacións imparciais sobre a poboación obxecto de aprendizaxe. Con todo, mostraxe probabilística perfecta basicamente nunca acontece no mundo real. Hai tipicamente dous principais problemas 1) diferenzas entre a poboación obxecto de aprendizaxe e da poboación cadro e 2) non-resposta (estes son exactamente os problemas que destruíron a busca Literary Digest). Así, en vez de pensar de mostraxe probabilística como un modelo realista do que realmente acontece no mundo, é mellor pensar en mostraxe probabilística como un modelo útil, abstracto, moi parecido a forma como os físicos pensan sobre unha bóla de fricción rolando un infinitamente longo rampa.
A alternativa para a mostraxe probabilística é a mostraxe non probabilística. A principal diferenza entre probabilidade e mostraxe non probabilística é que, con probabilidade de mostraxe toda a poboación ten unha probabilidade coñecida de inclusión. Hai, de feito, moitas variedades de mostraxe non probabilística, e estes métodos de recolección de datos están facendo cada vez máis común na era dixital. Pero, a mostraxe non probabilística ten unha reputación terrible entre os científicos e estatísticos sociais. De feito, a mostraxe non probabilística está asociada con algúns dos erros máis dramáticos de investigadores de investigación, como o fiasco Literary Digest (discutido anteriormente) ea previsión incorrecta sobre as eleccións presidenciais americanas de 1948 ( "Dewey Derrotas Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Con todo, o tempo é dereito de reconsiderar mostraxe non probabilística por dúas razóns. En primeiro lugar, como mostras probabilísticas tornar-se cada vez máis difícil de facer na práctica, a liña entre mostras de probabilidade e mostras non probabilísticas está esbater. Cando hai altas taxas de non-resposta (como hai en investigacións reais agora), a probabilidade real de inclusións aos enquisados non son coñecidos, e, polo tanto, mostras de probabilidade e mostras non probabilísticas non son tan diferentes como moitos investigadores cren. De feito, como veremos a continuación, ambas as abordaxes basicamente contar co mesmo método de estimación: post-estratificación. En segundo lugar, houbo moitos desenvolvementos na recollida e análise de mostras non probabilísticas. Estes métodos son diferentes o suficiente dos métodos que causaron problemas no pasado que eu creo que ten sentido pensar nelas como "non-probabilidade de mostraxe 2.0." Non temos que ter unha aversión irracional de métodos non-probabilística por mor de erros que se produciron Hai moito tempo.
A continuación, a fin de facer este argumento máis concreto, eu vou revisar mostraxe probabilística estándar e ponderación (Sección 3.4.1). A idea fundamental é que como recolleu os datos deben afectar o xeito como fai estimacións. En particular, se todos non teñen a mesma probabilidade de inclusión, a continuación, todos deben non teñen o mesmo peso. Noutras palabras, a súa mostraxe non é democrático, entón as súas estimacións non debe ser democrático. Tras analizar ponderación, vou describir dous enfoques para mostraxe non probabilística: unha que se centra en ponderación para xestionar o problema de datos ao azar recollidas (Sección 3.4.2), e un que intenta poñer máis control sobre como os datos son recadado (Sección 3.4.3). Os argumentos no texto principal será explicado a continuación con palabras e imaxes; lectores que quere un tratamento máis matemática tamén debe ver o apéndice técnico.