Con muestras no probabilísticas, los pesos pueden deshacer las distorsiones causadas por el proceso de muestreo asumido.
De la misma manera que los investigadores ponderar respuestas de muestras de probabilidad, también pueden ponderar respuestas de muestras no probabilísticas. Por ejemplo, como una alternativa a los CPS, imagine que ha colocado anuncios de banner en miles de sitios web para reclutar a los participantes de una encuesta para estimar la tasa de desempleo. Naturalmente, sería escéptico de que la media simple de la muestra sería una buena estimación de la tasa de desempleo. Su escepticismo es probablemente porque usted piensa que algunas personas tienen más probabilidades de completar la encuesta que otros. Por ejemplo, las personas que no pasan mucho tiempo en la web son menos propensos a completar la encuesta.
Como vimos en el apartado anterior, sin embargo, si sabemos cómo se seleccionó la muestra, como lo hacemos con una probabilidad de muestras, entonces podemos deshacer las distorsiones causadas por el proceso de muestreo. Por desgracia, cuando se trabaja con muestras no probabilísticas, no sabemos cómo se seleccionó la muestra. Sin embargo, podemos hacer suposiciones sobre el proceso de muestreo y luego aplicar la ponderación de la misma manera. Si estas suposiciones son correctas, entonces la ponderación será deshacer las distorsiones causadas por el proceso de muestreo.
Por ejemplo, imagina que en respuesta a sus anuncios de banner, que reclutó 100.000 encuestados. Sin embargo, usted no cree que estos 100.000 encuestados son una muestra aleatoria simple de los adultos estadounidenses. De hecho, cuando se compara a los encuestados que la población de Estados Unidos, se encuentra que la gente de algunos estados (por ejemplo, Nueva York) están excesivamente representados y que la gente de algunos estados (por ejemplo, Alaska) están poco representadas. Por lo tanto, la tasa de desempleo de la muestra es probable que sea una mala estimación de la tasa de desempleo en la población objetivo.
Una manera de deshacer la distorsión que sucedió en el proceso de muestreo es asignar pesos a cada persona; pesos más bajos a la gente de los estados que están representados excesivamente en la muestra (por ejemplo, Nueva York) y los pesos más altos para la gente de los estados que están poco representados en la muestra (por ejemplo, Alaska). Más específicamente, el peso de cada encuestado se relaciona con su prevalencia en la muestra en relación con su prevalencia en la población estadounidense. Este procedimiento de ponderación se denomina post-estratificación, y la idea de un peso que debe recordar el ejemplo en la Sección 3.4.1, donde se dieron los encuestados de Rhode Island menos peso que los encuestados de California. Postestratificación requiere que se conozca lo suficiente como para poner los encuestados en grupos y conocer la proporción de la población objetivo en cada grupo.
Aunque la ponderación de la muestra de probabilidad y de la muestra no probabilística son los mismos matemáticamente (véase el apéndice técnico), que funcionan bien en diferentes situaciones. Si el investigador tiene una muestra de probabilidad perfecta (es decir, sin el error de cobertura y no hay falta de respuesta), entonces la ponderación producirá estimaciones objetivas para todos los rasgos en todos los casos. Esta garantía sólida teórica es la razón por defensores de muestras de probabilidad encuentran tan atractivas. Por otra parte, las muestras no probabilísticas de ponderación sólo producirán estimaciones objetivas para todos los rasgos si las propensiones de respuesta son los mismos para todos los miembros de cada grupo. En otras palabras, pensando en volver a nuestro ejemplo, el uso de la estratificación posterior producirá estimaciones insesgadas si todo el mundo en Nueva York tiene la misma probabilidad de participar y todo el mundo en Alaska tiene la misma probabilidad de participar y así sucesivamente. Esta suposición se llama el supuesto de respuesta-propensiones homogéneos dentro de otros grupos, y desempeña un papel clave en saber si postestratificación va a funcionar bien con las muestras no probabilísticas.
Por desgracia, en nuestro ejemplo, parece poco probable que sea cierto el supuesto homogénea-respuesta-propensiones-intra-grupos. Es decir, parece poco probable que todos en Alaska tiene la misma probabilidad de estar en su encuesta. Sin embargo, hay tres puntos importantes a tener en cuenta acerca de la estratificación posterior, todos los cuales hacen que parezca más prometedor.
En primer lugar, la asunción homogénea-respuesta-propensiones-intra-grupos se vuelve más plausible como el número de grupos aumenta. Y, los investigadores no se limitan a grupos simplemente sobre la base de una sola dimensión geográfica. Por ejemplo, podríamos crear grupos basados en el estado, edad, sexo y nivel de educación. Parece más plausible que no hay propensiones de respuesta homogéneas en el grupo de 18-29, los graduados de sexo femenino, de la universidad que viven en Alaska que dentro del grupo de las personas que viven en Alaska. Por lo tanto, como el número de grupos utilizados para incrementos posteriores a la estratificación, los supuestos necesarios para apoyarla ser más razonable. Teniendo en cuenta este hecho, parece que un investigador se desee crear un gran número de grupos de post-estratificación. Pero, como el número de grupos aumenta, los investigadores encuentran con un problema diferente: escasez de datos. Si hay sólo un pequeño número de personas en cada grupo, a continuación, las estimaciones son más inciertos, y en el caso extremo en que hay un grupo que no tiene los encuestados, a continuación, después de la estratificación rompe completamente. Hay dos maneras de salir de esta tensión inherente entre la plausibilidad de la hipótesis de respuesta homogeneous--tendencia-intra-grupos y la demanda de tamaños de las muestras razonables en cada grupo. Un método consiste en pasar a un modelo estadístico más sofisticado para el cálculo de los pesos y el otro es recoger una muestra más diversa mayor, lo que ayuda a asegurar tamaños de las muestras razonables en cada grupo. Y, a veces hacen los investigadores tanto, como voy a describir con más detalle a continuación.
Una segunda consideración cuando se trabaja con la estratificación posterior de las muestras no probabilísticas es que el supuesto homogénea-respuesta-propensión-dentro-grupos que ya se hace con frecuencia en el análisis de muestras de probabilidad. La razón por la que es necesaria esta hipótesis para muestras de probabilidad en la práctica es que las muestras de probabilidad tienen de no respuesta, y el método más común para ajustar por la falta de respuesta es posterior a la estratificación como se ha descrito anteriormente. Por supuesto, sólo porque muchos investigadores hacen un determinado supuesto no significa que usted debe hacerlo también. Sin embargo, sí significa que al comparar las muestras no probabilísticas de muestras de probabilidad en la práctica, hay que tener en cuenta que ambos dependen de suposiciones e información auxiliar con el fin de producir estimaciones. En los entornos más realistas, simplemente no hay aproximación libre de la suposición de que la inferencia.
Por último, si se preocupan por una estimación, en particular, en nuestro ejemplo, el desempleo de la velocidad, entonces necesita una condición más débil que de respuesta-propensión dentro de otros grupos homogéneos suposición. En concreto, no es necesario suponer que todo el mundo tiene la misma propensión a responder, sólo tiene que asumir que no existe una correlación entre la propensión de respuesta y tasa de desempleo dentro de cada grupo. Por supuesto, incluso esta condición más débil no dará en algunas situaciones. Por ejemplo, imagina la estimación de la proporción de estadounidenses que hacen trabajo voluntario. Si las personas que hacen trabajo voluntario son más propensos a estar de acuerdo en estar en una encuesta, a continuación, los investigadores tendrán sistemáticamente sobre-estimar la cantidad de trabajo voluntario, incluso si lo hacen ajustes posteriores a la estratificación, un resultado que se ha demostrado empíricamente por Abraham, Helms, and Presser (2009) .
Como he dicho antes, las muestras no probabilísticas son vistos con gran escepticismo por los científicos sociales, en parte debido a su papel en algunos de los fracasos más embarazosos en los primeros días de la investigación mediante encuestas. Un claro ejemplo de lo lejos que hemos llegado con las muestras no probabilísticas es la investigación de Wei Wang, David de Rothschild, Sharad Goel, y Andrew Gelman que se recuperó correctamente el resultado de las elecciones de Estados Unidos 2012 utilizando una muestra no probabilística de los usuarios de América Xbox -a muestra decididamente no aleatoria de los estadounidenses (Wang et al. 2015) . Los investigadores reclutaron a los encuestados del sistema de juegos Xbox, y como era de esperar, la muestra Xbox sesgados masculinos y sesgados joven: 18 - y 29 años representan el 19% del electorado pero el 65% de la muestra Xbox y los hombres el 47% del electorado y el 93% de la muestra de Xbox (Figura 3.4). Debido a estas fuertes tendencias demográficas, los datos de Xbox prima era un mal indicador de resultados de la elección. Se predijo una fuerte victoria de Mitt Romney sobre Barack Obama. Una vez más, este es otro ejemplo de los peligros de, las muestras no probabilísticas no ajustados primas y es una reminiscencia del fiasco resumen literario.
Sin embargo, Wang y sus colegas fueron conscientes de estos problemas y trataron de ponderar los encuestados para corregir el proceso de muestreo. En particular, se utiliza una forma más sofisticada de la post-estratificación del que te hablé. Vale la pena aprender un poco más acerca de su enfoque, ya que se basa la intuición sobre el post-estratificación, y la versión particular Wang y colegas utilizado es uno de los enfoques más interesantes a las muestras no probabilísticas de ponderación.
En nuestro ejemplo sencillo sobre cómo se calcula el desempleo en la Sección 3.4.1, se dividió la población en grupos basados en el estado de residencia. Por el contrario, Wang y sus colegas dividieron a la población en en 176.256 grupos definidos por: el género (2 categorías), raza (4 categorías), la edad (4 categorías), la educación (4 categorías), estatal (51 categorías), Identificación de las partes (3 categorías), la ideología (3 categorías) y 2008 voto (3 categorías). Con más grupos, los investigadores esperaban que sería cada vez más probable que dentro de cada grupo, la propensión respuesta fue correlacionado con el apoyo a Obama. A continuación, en lugar de la construcción de pesos a nivel individual, como lo hicimos en nuestro ejemplo, Wang y sus colegas utilizaron un modelo complejo para estimar el porcentaje de personas en cada grupo que votar por Obama. Por último, se combinan estas estimaciones de grupos de apoyo con el tamaño conocido de cada grupo para producir un nivel global estimada de apoyo. En otras palabras, se procede al picado de la población en diferentes grupos, estimaron que el apoyo a Obama en cada grupo, y luego tomaron un promedio ponderado de las estimaciones del grupo para producir una estimación global.
Por lo tanto, el gran desafío en su enfoque es estimar el apoyo a Obama en cada uno de estos grupos 176.256. A pesar de su panel incluyó a 345,858 participantes únicos, un número enorme para los estándares de encuestas electorales, había muchos, muchos grupos para los que Wang y sus colegas tenían casi ninguna encuestados. Por lo tanto, para estimar el apoyo en cada grupo se utilizaron una técnica llamada regresión multinivel con el post-estratificación, que los investigadores llaman cariñosamente el Sr. P. En esencia, para estimar el apoyo a Obama dentro de un grupo específico, el Sr. P. piscinas información de muchas grupos relacionados estrechamente. Por ejemplo, considere el desafío de estimar el apoyo a Obama entre los hispanos femeninos, entre 18-29 años de edad, que son graduados universitarios, que están registrados los demócratas, que se identifican como moderados, y que votaron por Obama en 2008. Este es un grupo muy, muy específico, y es posible que no hay nadie en la muestra con estas características. Por lo tanto, para hacer estimaciones acerca de este grupo, el Sr. P. piscinas estima juntas de la gente en grupos muy similares.
Utilizando esta estrategia de análisis, Wang y sus colegas fueron capaces de usar la muestra no probabilística XBox para estimar muy de cerca el apoyo general que recibió Obama en las elecciones de 2012 (Figura 3.5). De hecho sus estimaciones fueron más precisas que un agregado de encuestas de opinión pública. Por lo tanto, en este caso, la ponderación de forma específica el Sr. P.-parece hacer un buen trabajo de corregir los sesgos en los datos no probabilístico; sesgos que son visibles cuando se mira a las estimaciones de los datos no ajustados Xbox.
Hay dos clases principales del estudio de Wang y sus colegas. En primer lugar, las muestras no probabilísticas no ajustados pueden conducir a estimaciones malas; esta es una lección que muchos investigadores han oído antes. Sin embargo, la segunda lección es que las muestras no probabilísticas, cuando se ponderan adecuadamente, pueden producir realmente muy buenas estimaciones. De hecho, sus estimaciones fueron más precisas que las estimaciones de pollster.com, una agregación de las encuestas electorales más tradicionales.
Por último, existen limitaciones importantes en lo que podemos aprender de este estudio específico. El hecho de que la estratificación posterior funcionó bien en este caso particular, no hay ninguna garantía de que va a funcionar bien en otros casos. De hecho, las elecciones son quizás uno de los ajustes más fáciles porque los encuestadores han estado estudiando las elecciones por casi 100 años, no hay información periódica (podemos ver quién gana las elecciones), y la identificación de las partes y las características demográficas son relativamente predictivo de la votación. En este punto, nos falta la teoría y la experiencia empírica sólida para saber cuándo pesando ajustes en muestras no probabilísticas producirán estimaciones suficientemente precisas. Una cosa que está claro, sin embargo, es si se ven obligados a trabajar con muestras no probabilísticas, entonces no hay razón de peso para creer que las estimaciones ajustadas serán mejores que las estimaciones no ajustadas.