2.3.1.1 grande

Grandes conjuntos de datos son un medio para un fin; no son un fin en sí mismos.

La primera de las tres buenas características de datos grande es el más discutido: se trata de grandes volúmenes de datos. Estas fuentes de datos pueden ser grandes en tres formas diferentes: mucha gente, un montón de información por persona, o muchas observaciones a lo largo del tiempo. Tener un gran conjunto de datos permite a algunos tipos específicos de investigación heterogeneidad de medición, el estudio de eventos raros, detectar pequeñas diferencias, y hacer estimaciones causales de los datos de observación. También parece conducir a un tipo específico de dejadez.

La primera cosa para que el tamaño es particularmente útil se está moviendo más allá de los promedios para hacer estimaciones de los subgrupos específicos. Por ejemplo, Gary King, Jennifer Pan, y Molly Roberts (2013) midieron la probabilidad de que los mensajes de los medios sociales en China serían censurados por el gobierno. Por sí misma, esta probabilidad media de eliminación no es muy útil para entender por qué el gobierno censura algunos puestos pero no en otros. Pero, debido a que su conjunto de datos incluye 11 millones de mensajes, el rey y sus colegas también producen estimaciones de la probabilidad de censura para puestos en 85 categorías distintas (por ejemplo, la pornografía, el Tíbet, y el tráfico en Beijing). Al comparar la probabilidad de censura para envíos en diferentes categorías, que fueron capaces de entender más acerca de cómo y por qué el gobierno censura ciertos tipos de mensajes. Con 11 mil puestos (en lugar de 11 millones de entradas), que no habrían sido capaces de producir estas estimaciones específicas de la categoría.

En segundo lugar, el tamaño es particularmente útil para el estudio de los acontecimientos se raras. Por ejemplo, Goel et al (2015) querían estudiar las diferentes maneras en que los tweets pueden ir viral. Debido a las grandes cascadas de re-tweets son extremadamente raros, aproximadamente uno de cada una de 3.000 que necesitaban para estudiar más de mil millones de tweets con el fin de encontrar suficientes cascadas grandes para su análisis.

En tercer lugar, grandes conjuntos de datos permiten a los investigadores detectar pequeñas diferencias. De hecho, gran parte de la atención en grandes volúmenes de datos en la industria es acerca de estas pequeñas diferencias: detectar de forma fiable la diferencia entre el 1% y el 1,1% porcentajes de clics en un anuncio puede traducirse en millones de dólares en ingresos extra. En algunos entornos científicos, esas pequeñas diferencias podrían no ser particularmente importante (incluso si son estadísticamente significativas). Sin embargo, en algunas configuraciones de directiva, diferencias tan pequeñas pueden llegar a ser importante si se considera en conjunto. Por ejemplo, si hay dos intervenciones de salud pública y una es ligeramente más eficaz que el otro, se puede cambiar a la intervención más eficaz podría llegar a ahorrar miles de vidas adicionales.

Por último, grandes conjuntos de datos aumentan en gran medida nuestra capacidad para hacer estimaciones causales de los datos de observación. A pesar de grandes conjuntos de datos no cambian fundamentalmente los problemas con la fabricación de la inferencia causal de los datos de observación, a juego y los experimentos naturales y dos técnicas que los investigadores han desarrollado para hacer afirmaciones causales de los datos de observación, tanto beneficiarse mucho de grandes conjuntos de datos. Voy a explicar e ilustrar esta afirmación con mayor detalle más adelante en este capítulo cuando describo estrategias de investigación.

A pesar de lo grande es generalmente una buena propiedad cuando se usa correctamente, me he dado cuenta de que lo grande comúnmente conduce a un error conceptual. Por alguna razón, la grandeza parece conducir a los investigadores a ignorar cómo se generó sus datos. Mientras grandeza reduce la necesidad de preocuparse por el error aleatorio, en realidad, aumenta la necesidad de preocuparse por los errores sistemáticos, los tipos de errores que voy a describir más abajo que surgen de los sesgos en cómo se crean y se recogieron los datos. En un pequeño conjunto de datos, tanto los errores aleatorios y errores sistemáticos pueden ser importantes, pero en un gran error aleatorio conjunto de datos se pueden promediar distancia y domina el error sistemático. Los investigadores que no piensan acerca error sistemático va a terminar usando sus grandes conjuntos de datos para obtener una estimación precisa de lo incorrecto; van a ser precisamente inexacta (McFarland and McFarland 2015) .