Podemos aproximar experimentos que no podemos hacer. Dos enfoques que beneficien especialmente a partir de la era digital son coincidentes y los experimentos naturales.
Muchos importantes cuestiones científicas y de política son causales. Consideremos, por ejemplo, la siguiente pregunta: ¿cuál es el efecto de un programa de capacitación laboral en los salarios? Una manera de responder a esta pregunta sería con un experimento controlado aleatorio donde los trabajadores fueron asignados al azar a recibir una formación o no recibir entrenamiento. Luego, los investigadores pudieron estimar el efecto del entrenamiento para estos participantes simplemente comparando los salarios de las personas que recibieron el entrenamiento para los que no la recibieron.
La simple comparación es válida debido a algo que ocurre antes de que incluso se recogieron los datos: la aleatorización. Sin la asignación al azar, el problema es mucho más complicado. Un investigador podría comparar los salarios de las personas que firmaron voluntariamente para la formación de los que no registro. Esa comparación probablemente demuestran que las personas que recibieron capacitación ganaron más, pero ¿cuánto de esto es debido a la formación y cuánto de esto es porque la gente que inscribirse para el entrenamiento son diferentes de las que no suscriban a punto para la formación? En otras palabras, ¿es justo comparar los salarios de estos dos grupos de personas?
Esta preocupación por comparaciones justas lleva a algunos investigadores a creer que es imposible hacer estimaciones causales sin ejecutar un experimento. Esta afirmación va demasiado lejos. Si bien es cierto que los experimentos proporcionan la evidencia más fuerte de los efectos causales, hay otras estrategias que pueden proporcionar estimaciones causales valiosos. En lugar de pensar que las estimaciones causales son bien fácil (en el caso de los experimentos) o imposible (en el caso de forma pasiva los datos observados), es mejor pensar en las estrategias para hacer estimaciones causales se extiende a lo largo de un continuo que va de fuerte al más débil (Figura 2.4). En el extremo más fuerte del continuo son aleatorios experimentos controlados. Sin embargo, estos a menudo son difíciles de hacer en la investigación social, porque muchos tratamientos requieren cantidades poco realistas de cooperación por parte de los gobiernos o empresas; simplemente hay muchos experimentos que no podemos hacer. Voy a dedicar todo el capítulo 4 de las fortalezas y debilidades de los experimentos controlados aleatorios, y voy a argumentar que, en algunos casos, hay razones éticas fuertes para preferir observacional a los métodos experimentales.
Moviéndose a lo largo del continuo, hay situaciones en las que los investigadores no han aleatorios de forma explícita. Es decir, los investigadores están tratando de aprender los conocimientos experimento similar sin hacer realmente un experimento; Naturalmente, esto va a ser complicado, pero los datos de gran mejora en gran medida nuestra capacidad para hacer estimaciones causales en estas situaciones.
A veces hay lugares donde la aleatoriedad en el mundo pasa a crear algo así como un experimento para los investigadores. Estos diseños se llaman experimentos naturales, y que serán consideradas en detalle en la Sección 2.4.3.1. Dos características de las fuentes de datos grandes-su naturaleza siempre activa y su tamaño aumenta en gran medida nuestra capacidad de aprender de los experimentos naturales cuando se producen.
Pero avanzar más lejos de experimentos controlados aleatorios, a veces ni siquiera hay un evento en la naturaleza que podemos utilizar para aproximarse a un experimento natural. En esta configuración, podemos construir cuidadosamente las comparaciones dentro de los datos no experimentales en un intento de aproximar un experimento. Estos diseños son llamados a juego, y que se considerarán en detalle en la Sección 2.4.3.2. Al igual que los experimentos naturales, a juego es un diseño que también se beneficia de las fuentes de datos grandes. En particular, el tamaño, tanto masivo en términos del número de casos y el tipo de información por casos y facilita en gran medida coincidente. La diferencia clave entre los experimentos naturales y coincidente es que en experimentos naturales que el investigador conoce el proceso a través del cual se asigna y se cree que es aleatoria del tratamiento.
El concepto de comparaciones justas que motivaron a los deseos de hacer experimentos también subyace en los dos enfoques alternativos: experimentos naturales y coincidente. Estos enfoques le permitirá estimar los efectos causales a partir de datos observados de forma pasiva mediante el descubrimiento de comparaciones justas que se sientan dentro de los datos que ya tiene.