Muestras de probabilidad y las muestras no probabilísticas no son tan diferentes en la práctica; en ambos casos, se trata de los pesos.
El muestreo es fundamental para la investigación de encuesta. Los investigadores casi nunca piden a sus preguntas a todo el mundo en su población objetivo. En este sentido, las encuestas no son únicos. La mayoría de investigaciones, de una manera u otra, consiste en un muestreo. A veces, este muestreo se realiza de forma explícita por el investigador; otras veces se pasa de forma implícita. Por ejemplo, un investigador que dirige un experimento de laboratorio en los estudiantes universitarios en su universidad también ha tomado una muestra. Por lo tanto, el muestreo es un problema que surge en este libro. De hecho, una de las preocupaciones más comunes que escucho acerca de las fuentes era digital de datos es "no son representativos." Como veremos más adelante en esta sección, esta preocupación es tanto menos graves y más sutil que muchos escépticos se dan cuenta. De hecho, voy a argumentar que todo el concepto de "representatividad" no es útil para pensar en muestras probabilísticas y no probabilísticas. En cambio, la clave es pensar acerca de cómo se recogieron los datos y cómo los sesgos en la recogida de datos que se puede deshacer la hora de hacer estimaciones.
En la actualidad, el enfoque teórico dominante de representación es el muestreo probabilístico. Cuando los datos se recogen con un método de muestreo probabilístico que se ha ejecutado a la perfección, los investigadores son capaces de ponderar sus datos en función de la forma en que se recogieron para realizar estimaciones objetivas sobre la población objetivo. Sin embargo, el muestreo probabilístico perfecta, básicamente, nunca sucede en el mundo real. En general, existen dos problemas principales 1) las diferencias entre la población objetivo y la población marco y 2) la falta de respuesta (estos son exactamente los problemas que destruyeron el sondeo resumen literario). Por lo tanto, en lugar de pensar de muestreo probabilístico como un modelo realista de lo que realmente sucede en el mundo, es mejor pensar en el muestreo probabilístico como un modelo útil, abstracta, al igual que la forma en que los físicos piensan en una bola sin fricción rodando por un tiempo infinitamente largo rampa.
La alternativa al muestreo probabilístico es el muestreo no probabilístico. La principal diferencia entre la probabilidad y muestreo no probabilístico es que con una probabilidad de muestreo de todos los miembros de la población tiene una probabilidad conocida de la inclusión. Hay, de hecho, muchas variedades de muestreo no probabilístico, y estos métodos de recolección de datos son cada vez más comunes en la era digital. Sin embargo, el muestreo no probabilístico tiene una terrible reputación entre los científicos sociales y estadísticos. De hecho, el muestreo no probabilístico se asocia con algunos de los fracasos más espectaculares de los investigadores del estudio, tales como el fiasco resumen literario (discutido anteriormente) y la predicción incorrecta sobre las elecciones presidenciales de Estados Unidos de 1948 ( "Dewey derrota a Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Sin embargo, ha llegado el momento de reconsiderar el muestreo no probabilístico por dos razones. En primer lugar, como muestras de probabilidad se han vuelto cada vez más difícil de hacer en la práctica, la línea divisoria entre las muestras probabilísticas y las muestras no probabilísticas está difuminando. Cuando hay una alta tasa de no respuesta (como los hay en encuestas reales ahora), la probabilidad real de las inclusiones de los encuestados no son conocidos, y por lo tanto, las muestras probabilísticas y las muestras no probabilísticas no son tan diferentes como muchos investigadores creen. De hecho, como veremos a continuación, los dos enfoques básicamente se basan en el mismo método de estimación: postestratificación. En segundo lugar, ha habido muchos avances en la recogida y análisis de muestras no probabilísticas. Estos métodos son bastante diferentes de los métodos que causaron problemas en el pasado que creo que tiene sentido pensar en ellos como "muestreo no probabilístico 2.0." No debemos tener una aversión irracional a los métodos no probabilísticos a causa de los errores que ocurrieron hace mucho tiempo.
A continuación, con el fin de hacer que este argumento más concreto, voy a revisar el muestreo probabilístico estándar y ponderación (Sección 3.4.1). La idea clave es que la forma en que ha recopilado sus datos debería afectar la forma de realizar las estimaciones. En particular, si todo el mundo no tiene la misma probabilidad de inclusión, entonces todo el mundo debería no tener el mismo peso. En otras palabras, si el muestreo no es democrática, a continuación, sus estimaciones no debe ser democrático. Después de revisar ponderación, describiré dos enfoques para el muestreo no probabilístico: uno que se centra en la ponderación que lidiar con el problema de los datos recogidos al azar (Sección 3.4.2), y uno que trata de colocar un mayor control sobre la forma en que los datos son recogido (Sección 3.4.3). Los argumentos en el texto principal se explicarán a continuación con palabras e imágenes; lectores que deseen un tratamiento más matemático también deben consultar el apéndice técnico.