Los datos no representativos son malos para las generalizaciones fuera de muestra, pero pueden ser bastante útiles para las comparaciones dentro de la muestra.
Algunos científicos sociales están acostumbrados a trabajar con datos que provienen de una muestra aleatoria probabilística de una población bien definida, como todos los adultos en un país en particular. Este tipo de datos se llama datos representativos porque la muestra "representa" a la población más grande. Muchos investigadores valoran los datos representativos, y para algunos, los datos representativos son sinónimo de ciencia rigurosa, mientras que los datos no representativos son sinónimo de descuido. En el extremo, algunos escépticos parecen creer que no se puede aprender nada de los datos no representativos. Si es cierto, esto parecería limitar severamente lo que se puede aprender de las fuentes de big data porque muchas de ellas no son representativas. Afortunadamente, estos escépticos solo tienen una razón parcialmente correcta. Hay ciertos objetivos de investigación para los cuales los datos no representativos claramente no son adecuados, pero hay otros para los cuales podría ser bastante útil.
Para entender esta distinción, consideremos un clásico científico: el estudio de John Snow sobre el brote de cólera de 1853-54 en Londres. En ese momento, muchos médicos creían que el cólera era causado por el "mal aire", pero Snow creía que era una enfermedad infecciosa, tal vez propagada por el agua potable saturada de aguas residuales. Para probar esta idea, Snow aprovechó lo que podríamos llamar un experimento natural. Comparó las tasas de cólera de los hogares atendidos por dos compañías de agua diferentes: Lambeth, Southwark y Vauxhall. Estas empresas servían a hogares similares, pero diferían en una forma importante: en 1849 -unos pocos años antes de que comenzara la epidemia- Lambeth movió su punto de entrada corriente arriba de la descarga principal de aguas residuales en Londres, mientras que Southwark y Vauxhall dejaron su tubería de admisión aguas abajo del descarga de aguas residuales Cuando Snow comparó las tasas de mortalidad por cólera en los hogares atendidos por las dos compañías, descubrió que los clientes de Southwark & Vauxhall -la compañía que suministraba agua contaminada a las aguas residuales de los clientes- tenían 10 veces más probabilidades de morir de cólera. Este resultado proporciona evidencia científica sólida para el argumento de Snow sobre la causa del cólera, a pesar de que no se basa en una muestra representativa de personas en Londres.
Sin embargo, los datos de estas dos compañías no serían ideales para responder una pregunta diferente: ¿cuál era la prevalencia del cólera en Londres durante el brote? Para la segunda pregunta, que también es importante, sería mucho mejor tener una muestra representativa de personas de Londres.
Como ilustra el trabajo de Snow, hay algunas preguntas científicas para las cuales los datos no representativos pueden ser bastante efectivos y hay otros para los que no es adecuado. Una forma cruda de distinguir estos dos tipos de preguntas es que algunas preguntas se refieren a comparaciones dentro de la muestra y otras a generalizaciones fuera de la muestra. Esta distinción puede ilustrarse con más detalle en otro estudio clásico sobre epidemiología: el British Doctors Study, que desempeñó un papel importante en la demostración de que fumar causa cáncer. En este estudio, Richard Doll y A. Bradford Hill siguieron aproximadamente a 25,000 médicos hombres durante varios años y compararon sus tasas de mortalidad según la cantidad que fumaron cuando comenzó el estudio. Doll y Hill (1954) encontraron una fuerte relación exposición-respuesta: mientras más gente fumaba, más probable era que murieran de cáncer de pulmón. Por supuesto, sería imprudente estimar la prevalencia del cáncer de pulmón entre todos los británicos con base en este grupo de médicos hombres, pero la comparación dentro de la muestra todavía proporciona evidencia de que fumar causa cáncer de pulmón.
Ahora que he ilustrado la diferencia entre las comparaciones dentro de la muestra y las generalizaciones fuera de la muestra, hay dos advertencias en orden. Primero, naturalmente hay preguntas sobre hasta qué punto una relación que se mantiene dentro de una muestra de médicos británicos varones también se mantendrá dentro de una muestra de mujeres, médicos británicos o trabajadores masculinos de fábricas británicas o trabajadoras alemanas o muchos otros grupos. Estas preguntas son interesantes e importantes, pero son diferentes de las preguntas sobre la medida en que podemos generalizar de una muestra a una población. Tenga en cuenta, por ejemplo, que probablemente sospeche que la relación entre fumar y cáncer que se encontró en los médicos británicos varones probablemente será similar en estos otros grupos. Su capacidad para hacer esta extrapolación no proviene del hecho de que los médicos británicos varones sean una muestra aleatoria probabilística de cualquier población; más bien, proviene de una comprensión del mecanismo que vincula fumar y cáncer. Por lo tanto, la generalización de una muestra a la población de la que se extrae es en gran parte un tema estadístico, pero las preguntas sobre la transportabilidad del patrón encontrado en un grupo a otro son en gran parte un tema no (Pearl and Bareinboim 2014; Pearl 2015) .
En este punto, un escéptico podría señalar que la mayoría de los patrones sociales son probablemente menos transportables entre los grupos que la relación entre fumar y el cáncer. Y estoy de acuerdo. La medida en que debemos esperar que los patrones sean transportables es, en última instancia, una cuestión científica que debe decidirse sobre la base de la teoría y la evidencia. No se debe suponer automáticamente que los patrones serán transportables, pero tampoco se debe suponer que no serán transportables. Estas preguntas algo abstractas sobre transportabilidad le resultarán familiares si ha seguido los debates sobre cuánto pueden aprender los investigadores sobre el comportamiento humano estudiando a estudiantes de pregrado (Sears 1986, [@henrich_most_2010] ) . Sin embargo, a pesar de estos debates, no sería razonable decir que los investigadores no pueden aprender nada estudiando a estudiantes de pregrado.
La segunda advertencia es que la mayoría de los investigadores con datos no representativos no son tan cuidadosos como Snow o Doll and Hill. Entonces, para ilustrar qué puede salir mal cuando los investigadores intentan hacer una generalización fuera de muestra a partir de datos no representativos, me gustaría contarte sobre un estudio de las elecciones parlamentarias alemanas de 2009 por Andranik Tumasjan y colegas (2010) . Al analizar más de 100.000 tweets, encontraron que la proporción de tweets que mencionaban un partido político coincidía con la proporción de votos que el partido recibió en las elecciones parlamentarias (figura 2.3). En otras palabras, parecía que los datos de Twitter, que eran esencialmente gratuitos, podían reemplazar las encuestas de opinión pública tradicionales, que son caras debido a su énfasis en los datos representativos.
Dado lo que probablemente ya sabes sobre Twitter, deberías ser inmediatamente escéptico de este resultado. Los alemanes en Twitter en 2009 no fueron una muestra aleatoria probabilística de votantes alemanes, y los partidarios de algunos partidos podrían twittear sobre política mucho más a menudo que los partidarios de otros partidos. Por lo tanto, parece sorprendente que todos los posibles sesgos que pueda imaginar se cancelen de alguna manera para que estos datos reflejen directamente a los votantes alemanes. De hecho, los resultados en Tumasjan et al. (2010) resultó ser demasiado bueno para ser verdad. Un documento de seguimiento de Andreas Jungherr, Pascal Jürgens y Harald Schoen (2012) señaló que el análisis original había excluido al partido político que había recibido más menciones en Twitter: el Partido Pirata, un pequeño partido que lucha contra la regulación gubernamental. de la Internet. Cuando se incluyó al Partido Pirata en el análisis, las menciones de Twitter se convierten en un terrible predictor de los resultados de las elecciones (figura 2.3). Como lo ilustra este ejemplo, el uso de grandes fuentes de datos no representativas para hacer generalizaciones fuera de muestra puede ir muy mal. Además, debe notar que el hecho de que haya 100,000 tweets era básicamente irrelevante: muchos datos no representativos aún no son representativos, un tema al que volveré en el capítulo 3 cuando debato las encuestas.
Para concluir, muchas fuentes de datos grandes no son muestras representativas de una población bien definida. Para las preguntas que requieren generalizar los resultados de la muestra a la población de la que se extrajo, este es un problema grave. Pero para las preguntas sobre las comparaciones dentro de la muestra, los datos no representativos pueden ser poderosos, siempre y cuando los investigadores tengan claras las características de su muestra y respalden las afirmaciones sobre la transportabilidad con evidencia empírica o teórica. De hecho, mi esperanza es que las grandes fuentes de datos permitirán a los investigadores hacer más comparaciones dentro de la muestra en muchos grupos no representativos, y creo que las estimaciones de muchos grupos diferentes harán más para avanzar en la investigación social que una estimación única de un azar probabilístico muestra.