2.3.2.3 no representativa

Dos fuentes de representatividad no son diferentes poblaciones y diferentes patrones de uso.

grandes volúmenes de datos tienden a estar sesgados sistemáticamente en dos formas principales. Esto no debe causar un problema para todo tipo de análisis, pero para algunos análisis puede ser una falla crítica.

Una primera fuente de sesgo sistemático es que las personas capturadas son típicamente ni un universo completo de todas las personas o de una muestra aleatoria de una población específica. Por ejemplo, los estadounidenses en Twitter no son una muestra aleatoria de los estadounidenses (Hargittai 2015) . Una segunda fuente de sesgo sistemático es que muchos sistemas de datos grandes capturan acciones, y algunas personas contribuyen muchas acciones más que otros. Por ejemplo, algunas personas en Twitter contribuyen cientos de veces más tuits que otros. Por lo tanto, los eventos en una plataforma específica pueden ser cada vez en mayor medida un reflejo de ciertos subgrupos que la propia plataforma.

Normalmente, los investigadores quieren saber mucho acerca de los datos que tienen. Sin embargo, dada la naturaleza no representativa de grandes volúmenes de datos, es útil también para voltear su forma de pensar. También es necesario saber mucho acerca de los datos que usted no tiene. Esto es especialmente cierto cuando los datos que no tiene son sistemáticamente diferentes de los datos que usted tiene. Por ejemplo, si usted tiene los registros de llamadas de una empresa de telefonía móvil en unos países en desarrollo, se debe pensar no sólo acerca de las personas en el conjunto de datos, sino también acerca de las personas que podrían ser demasiado pobres para poseer un teléfono móvil. Además, en el capítulo 3, vamos a aprender acerca de cómo ponderación puede permitir a los investigadores para hacer mejores estimaciones a partir de datos no representativos.