Los pesos pueden deshacer distorsiones causadas intencionalmente por el proceso de muestreo.
Muestras de probabilidad son aquellos en los que todas las personas tienen un conocido probabilidad no nula, de la inclusión, y el diseño más simple muestreo probabilístico es simple muestreo aleatorio, donde cada persona tiene la misma probabilidad de inclusión. Cuando los encuestados son seleccionados a través de un muestreo aleatorio simple con una perfecta ejecución (por ejemplo, no hay error de cobertura y no hay falta de respuesta), entonces la estimación es sencilla, puesto que la muestra-en promedio-ser una versión en miniatura de la población.
El muestreo aleatorio simple se utiliza raramente en la práctica, sin embargo. Por el contrario, los investigadores intencionalmente seleccionar personas con probabilidades desiguales de inclusión con el fin de reducir los costes y aumentar la precisión. Cuando los investigadores intencionalmente seleccionar personas con diferentes probabilidades de inclusión, a continuación, es necesario realizar ajustes para deshacer las distorsiones causadas por el proceso de muestreo. En otras palabras, ¿cómo se generaliza a partir de una muestra depende de cómo se seleccionó la muestra.
Por ejemplo, la Current Population Survey (CPS) es utilizado por el gobierno de Estados Unidos para estimar la tasa de desempleo. Cada mes cerca de 100.000 personas son entrevistados, ya sea cara a cara o por teléfono, y los resultados se utilizan para producir la tasa de desempleo estimada. Debido a que el gobierno desea estimar la tasa de desempleo en cada estado, que no puede hacer una muestra aleatoria simple de los adultos, ya que produciría muy pocos encuestados en estados con poblaciones pequeñas (por ejemplo, Rhode Island) y también muchos de los estados de gran población (por ejemplo, , California). En cambio, las muestras de CPS personas en diferentes estados a diferentes velocidades, un proceso llamado muestreo estratificado con probabilidad desigual de selección. Por ejemplo, si los CPS querido 2.000 encuestados por estado, a continuación, los adultos en Rhode Island tendrían aproximadamente 30 veces mayor probabilidad de inclusión que los adultos en California (Rhode Island: 2.000 encuestados por 800.000 adultos vs California: 2.000 encuestados por 30.000.000 adultos). Como veremos más adelante, este tipo de muestreo con probabilidades desiguales sucede con las fuentes de datos en línea también, pero a diferencia de los CPS, el mecanismo de muestreo es normalmente desconocida o controlada por el investigador.
Dado su diseño de muestreo, el CPS no es directamente representativo de los EE.UU.; que incluye demasiadas personas de Rhode Island y muy pocos de California. Por lo tanto, no sería prudente para estimar la tasa de desempleo en el país con la tasa de desempleo en la muestra. En lugar de la media de la muestra, es mejor tomar una media ponderada, donde representan los pesos por el hecho de que la gente de Rhode Island eran más propensos a ser incluidos que las personas de California. Por ejemplo, cada persona de California sería upweighted- que contarían más en la estimación, y cada persona de Rhode Island se downweighted-ellos cuentan menos en la estimación. En esencia, se le da más participación a la gente que usted es menos probable que aprender.
Este ejemplo ilustra un juguete importante, pero comúnmente mal entendido punto: una muestra no tiene por qué ser una versión en miniatura de la población con el fin de producir buenas estimaciones. Si se sabe lo suficiente acerca de cómo se recogieron los datos, a continuación, esa información puede ser utilizada al realizar las estimaciones de la muestra. El enfoque que acabo de describir, y que describo matemáticamente en el apéndice técnico-cae de lleno dentro del marco de muestreo probabilístico clásico. Ahora, voy a mostrar cómo esa misma idea se puede aplicar a las muestras no probabilísticas.