Podemos aproximar experimentos que no hemos o no podemos hacer. Dos enfoques que se benefician especialmente de las grandes fuentes de datos son los experimentos naturales y la comparación.
Algunas preguntas científicas y políticas importantes son causales. Por ejemplo, ¿cuál es el efecto de un programa de capacitación laboral sobre los salarios? Un investigador que intenta responder a esta pregunta puede comparar los ingresos de las personas que se inscribieron para recibir capacitación con aquellos que no lo hicieron. Pero, ¿qué diferencia de salario entre estos grupos se debe a la capacitación y cuánto se debe a diferencias preexistentes entre las personas que se inscriben y las que no? Esta es una pregunta difícil, y es una que no desaparece automáticamente con más datos. En otras palabras, surge la preocupación sobre posibles diferencias preexistentes sin importar cuántos trabajadores haya en sus datos.
En muchas situaciones, la forma más sólida de estimar el efecto causal de algún tratamiento, como la capacitación laboral, es realizar un experimento controlado aleatorio donde un investigador entrega el tratamiento al azar a algunas personas y no a otras. Dedicaré todo el capítulo 4 a experimentos, así que aquí me voy a enfocar en dos estrategias que pueden usarse con datos no experimentales. La primera estrategia depende de buscar algo que suceda en el mundo que al azar (o casi al azar) asigna el tratamiento a algunas personas y no a otras. La segunda estrategia depende de ajustar estadísticamente los datos no experimentales en un intento de dar cuenta de las diferencias preexistentes entre los que recibieron y los que no recibieron el tratamiento.
Un escéptico podría afirmar que ambas estrategias deberían evitarse porque requieren supuestos fuertes, suposiciones que son difíciles de evaluar y que, en la práctica, a menudo son violadas. Si bien simpatizo con esta afirmación, creo que va demasiado lejos. Ciertamente es cierto que es difícil hacer estimaciones causales a partir de datos no experimentales, pero no creo que eso signifique que nunca deberíamos intentarlo. En particular, los enfoques no experimentales pueden ser útiles si la restricción logística le impide realizar un experimento o si las limitaciones éticas significan que no desea ejecutar un experimento. Además, los enfoques no experimentales pueden ser útiles si desea aprovechar los datos que ya existen para diseñar un experimento controlado aleatorio.
Antes de continuar, también vale la pena señalar que hacer estimaciones causales es uno de los temas más complejos en la investigación social, y que puede conducir a un debate intenso y emocional. En lo que sigue, proporcionaré una descripción optimista de cada enfoque para construir una intuición al respecto, luego describiré algunos de los desafíos que surgen al usar ese enfoque. Más detalles sobre cada enfoque están disponibles en los materiales al final de este capítulo. Si planea utilizar cualquiera de estos enfoques en su propia investigación, le recomiendo leer uno de los muchos libros excelentes sobre inferencia causal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Un enfoque para hacer estimaciones causales a partir de datos no experimentales es buscar un evento que haya asignado aleatoriamente un tratamiento a algunas personas y no a otras. Estas situaciones se llaman experimentos naturales . Uno de los ejemplos más claros de un experimento natural proviene de la investigación de Joshua Angrist (1990) mide el efecto de los servicios militares en las ganancias. Durante la guerra en Vietnam, Estados Unidos aumentó el tamaño de sus fuerzas armadas a través de un calado. Para decidir qué ciudadanos serían llamados a entrar en servicio, el gobierno de los Estados Unidos realizó una lotería. Cada fecha de nacimiento fue escrita en un pedazo de papel y, como se muestra en la figura 2.7, estos pedazos de papel fueron seleccionados uno a la vez para determinar el orden en que los hombres jóvenes serían llamados a servir (las mujeres jóvenes no estaban sujetas) al borrador). Según los resultados, los hombres nacidos el 14 de septiembre fueron llamados primero, los hombres nacidos el 24 de abril fueron llamados segundos, y así sucesivamente. En última instancia, en esta lotería, los hombres nacidos en 195 días diferentes fueron reclutados, mientras que los hombres nacidos en 171 días no lo fueron.
Aunque puede no ser inmediatamente evidente, una lotería preliminar tiene una similitud crítica con un experimento controlado aleatorio: en ambas situaciones, los participantes se asignan aleatoriamente para recibir un tratamiento. Para estudiar el efecto de este tratamiento aleatorizado, Angrist aprovechó un sistema de Big Data siempre activo: la Administración de Seguridad Social de los EE. UU., Que recopila información sobre las ganancias de empleo de casi todos los estadounidenses. Al combinar la información sobre a quién se seleccionó al azar en el sorteo con los datos de ganancias recopilados en los registros administrativos gubernamentales, Angrist concluyó que las ganancias de los veteranos eran aproximadamente un 15% menores que las ganancias de los no veteranos comparables.
Como lo ilustra este ejemplo, a veces las fuerzas sociales, políticas o naturales asignan tratamientos de una manera que los investigadores pueden aprovechar, y en ocasiones los efectos de estos tratamientos se toman de las fuentes de big data siempre activas. Esta estrategia de investigación se puede resumir de la siguiente manera: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Para ilustrar esta estrategia en la era digital, consideremos un estudio de Alexandre Mas y Enrico Moretti (2009) que intentó estimar el efecto de trabajar con colegas productivos en la productividad de un trabajador. Antes de ver los resultados, vale la pena señalar que existen expectativas contradictorias que podría tener. Por un lado, es de esperar que trabajar con colegas productivos lleve a un trabajador a aumentar su productividad debido a la presión de grupo. O, por otro lado, es de esperar que tener compañeros trabajadores pueda hacer que un trabajador se relaje porque de todos modos el trabajo lo harán sus compañeros. La forma más clara de estudiar los efectos de los pares sobre la productividad sería un experimento controlado aleatorizado en el que los trabajadores se asignan aleatoriamente a turnos con trabajadores de diferentes niveles de productividad y luego se mide la productividad resultante para todos. Sin embargo, los investigadores no controlan el cronograma de los trabajadores en ningún negocio real, por lo que Mas y Moretti tuvieron que confiar en un experimento natural que involucró a cajeros en un supermercado.
En este supermercado en particular, debido a la forma en que se hizo la programación y la forma en que los turnos se superponen, cada cajero tenía diferentes compañeros de trabajo en diferentes momentos del día. Además, en este supermercado en particular, la asignación de cajeros no estaba relacionada con la productividad de sus compañeros o cuán ocupada estaba la tienda. En otras palabras, aunque la programación de los cajeros no estaba determinada por una lotería, era como si los trabajadores a veces fueran asignados aleatoriamente para trabajar con pares de alta (o baja) productividad. Afortunadamente, este supermercado también tenía un sistema de pago de la era digital que rastreaba los artículos que cada cajero estaba escaneando en todo momento. A partir de estos datos de registro de compra, Mas y Moretti pudieron crear una medida de productividad precisa, individual y siempre activa: la cantidad de elementos escaneados por segundo. Combinando estas dos cosas -la variación natural en la productividad entre iguales y la medida de productividad constante-, Mas y Moretti estimaron que si a un cajero se le asignaban compañeros de trabajo que eran un 10% más productivos que el promedio, su productividad aumentaría en un 1,5% . Además, utilizaron el tamaño y la riqueza de sus datos para explorar dos cuestiones importantes: la heterogeneidad de este efecto (¿para qué tipos de trabajadores es el efecto más grande?) Y los mecanismos detrás del efecto (¿por qué tener compañeros de alta productividad conducen a ¿mayor productividad?). Volveremos sobre estos dos aspectos importantes: la heterogeneidad de los efectos y mecanismos del tratamiento, en el capítulo 4, cuando discutiremos los experimentos con más detalle.
Generalizando a partir de estos dos estudios, la tabla 2.3 resume otros estudios que tienen esta misma estructura: el uso de una fuente de datos siempre activada para medir el efecto de alguna variación aleatoria. En la práctica, los investigadores usan dos estrategias diferentes para encontrar experimentos naturales, los cuales pueden ser fructíferos. Algunos investigadores comienzan con una fuente de datos siempre activa y buscan eventos aleatorios en el mundo; otros comienzan un evento aleatorio en el mundo y buscan fuentes de datos que capturen su impacto.
Enfoque sustantivo | Fuente de experimento natural | Fuente de datos siempre activa | Referencia |
---|---|---|---|
Peer effects en la productividad | Proceso de programación | Datos de pago | Mas and Moretti (2009) |
Formación de la amistad | Huracanes | Phan and Airoldi (2015) | |
Propagación de emociones | Lluvia | Lorenzo Coviello et al. (2014) | |
Transferencias económicas de igual a igual | Terremoto | Datos de dinero móvil | Blumenstock, Fafchamps, and Eagle (2011) |
Comportamiento de consumo personal | Cierre del gobierno de EE. UU. 2013 | Datos de finanzas personales | Baker and Yannelis (2015) |
Impacto económico de los sistemas de recomendación | Varios | Navegando datos en Amazon | Sharma, Hofman, and Watts (2015) |
Efecto del estrés en los bebés no nacidos | Guerra de Israel-Hezbollah 2006 | Registros de nacimiento | Torche and Shwed (2015) |
Comportamiento de lectura en Wikipedia | Revelaciones de Snowden | Registros de Wikipedia | Penney (2016) |
Peer effects en el ejercicio | Clima | Rastreadores de fitness | Aral and Nicolaides (2017) |
En la discusión hasta ahora acerca de los experimentos naturales, he omitido un punto importante: pasar de lo que la naturaleza ha proporcionado a lo que quieres a veces puede ser bastante complicado. Volvamos al ejemplo del proyecto de Vietnam. En este caso, Angrist estaba interesado en estimar el efecto del servicio militar en las ganancias. Desafortunadamente, el servicio militar no fue asignado al azar; más bien se estaba redactando que se asignó al azar. Sin embargo, no todos los que fueron reclutados fueron atendidos (hubo una variedad de exenciones), y no todos los que sirvieron fueron reclutados (las personas podían ofrecerse voluntariamente para servir). Debido a que el reclutamiento fue asignado aleatoriamente, un investigador puede estimar el efecto de ser reclutado para todos los hombres en el reclutamiento. Pero Angrist no quería saber el efecto de ser reclutado; él quería saber el efecto de servir en el ejército. Sin embargo, para hacer este cálculo, se requieren suposiciones y complicaciones adicionales. En primer lugar, los investigadores deben suponer que la única forma en que se está redactando las ganancias impactadas es a través del servicio militar, una suposición llamada restricción de exclusión . Esta suposición podría ser incorrecta si, por ejemplo, los hombres que fueron seleccionados permanecen en la escuela más tiempo para evitar servir o si es menos probable que los empleadores contraten a hombres reclutados. En general, la restricción de exclusión es una suposición crítica, y generalmente es difícil de verificar. Incluso si la restricción de exclusión es correcta, aún es imposible estimar el efecto del servicio en todos los hombres. En cambio, resulta que los investigadores solo pueden estimar el efecto en un subconjunto específico de hombres llamados cumplidores (hombres que servirían cuando se redactó, pero que no servirían cuando no se redactó) (Angrist, Imbens, and Rubin 1996) . Los cumplidores, sin embargo, no eran la población original de interés. Tenga en cuenta que estos problemas surgen incluso en el caso relativamente limpio de la lotería de draft. Un conjunto adicional de complicaciones surge cuando el tratamiento no es asignado por una lotería física. Por ejemplo, en el estudio de Mas y Moretti sobre cajeros, surgen preguntas adicionales sobre la suposición de que la asignación de pares es esencialmente aleatoria. Si esta suposición se violara fuertemente, podría sesgar sus estimaciones. Para concluir, los experimentos naturales pueden ser una estrategia poderosa para realizar estimaciones causales a partir de datos no experimentales, y las fuentes de grandes datos aumentan nuestra capacidad de sacar provecho de los experimentos naturales cuando ocurren. Sin embargo, probablemente requerirá un gran cuidado, y en ocasiones suposiciones fuertes, pasar de lo que la naturaleza ha proporcionado a la estimación que desea.
La segunda estrategia de la que me gustaría hablar para realizar estimaciones causales a partir de datos no experimentales depende de ajustar estadísticamente los datos no experimentales en un intento de dar cuenta de las diferencias preexistentes entre quienes recibieron el tratamiento y los que no. Hay muchos enfoques de ajuste de este tipo, pero me centraré en uno llamado emparejamiento . En el emparejamiento, el investigador examina los datos no experimentales para crear pares de personas que son similares, excepto que uno ha recibido el tratamiento y el otro no. En el proceso de emparejamiento, los investigadores en realidad también están podando ; es decir, descartar casos donde no hay una coincidencia obvia. Por lo tanto, este método se llamaría con mayor precisión matching-and-pouning, pero me quedaré con el término tradicional: matching.
Un ejemplo del poder de las estrategias de emparejamiento con fuentes masivas de datos no experimentales proviene de la investigación sobre el comportamiento del consumidor por Liran Einav y colegas (2015) . Estaban interesados en las subastas que tienen lugar en eBay, y al describir su trabajo, me centraré en el efecto del precio de inicio de la subasta en los resultados de la subasta, como el precio de venta o la probabilidad de una venta.
La forma más ingenua de estimar el efecto del precio inicial sobre el precio de venta sería simplemente calcular el precio final de las subastas con diferentes precios iniciales. Este enfoque estaría bien si quisiera predecir el precio de venta dado el precio de salida. Pero si su pregunta se refiere al efecto del precio inicial, entonces este enfoque no funcionará porque no se basa en comparaciones justas; las subastas con precios iniciales más bajos pueden ser bastante diferentes de aquellas con precios iniciales más altos (por ejemplo, podrían ser para diferentes tipos de bienes o incluir diferentes tipos de vendedores).
Si ya conoce los problemas que pueden surgir al realizar estimaciones causales a partir de datos no experimentales, puede omitir el enfoque ingenuo y considerar ejecutar un experimento de campo en el que vendería un elemento específico, como un club de golf, con un precio fijo. conjunto de parámetros de subasta, por ejemplo, envío gratuito y subasta abiertos durante dos semanas, pero con precios de inicio asignados aleatoriamente. Al comparar los resultados de mercado resultantes, este experimento de campo ofrecería una medición muy clara del efecto del precio inicial sobre el precio de venta. Pero esta medida solo se aplicaría a un producto en particular y a un conjunto de parámetros de subasta. Los resultados pueden ser diferentes, por ejemplo, para diferentes tipos de productos. Sin una teoría sólida, es difícil extrapolar desde este único experimento al rango completo de posibles experimentos que podrían haberse ejecutado. Además, los experimentos de campo son lo suficientemente caros como para que no sea factible ejecutar cada variación que desee probar.
En contraste con los enfoques ingenuos y experimentales, Einav y sus colegas tomaron un tercer enfoque: emparejamiento. El truco principal en su estrategia es descubrir cosas similares a los experimentos de campo que ya han sucedido en eBay. Por ejemplo, la figura 2.8 muestra algunos de los 31 listados para exactamente el mismo club de golf -un driver Taylormade Burner 09-vendido exactamente por el mismo vendedor- "budgetgolfer". Sin embargo, estos 31 listados tienen características ligeramente diferentes, como diferentes inicios precio, fechas de finalización y tarifas de envío. En otras palabras, es como si "budgetgolfer" estuviera ejecutando experimentos para los investigadores.
Estas listas del controlador Taylormade Burner 09 que se vende por "budgetgolfer" son un ejemplo de un conjunto de anuncios coincidentes, donde el mismo vendedor vende exactamente el mismo artículo, pero cada vez con características ligeramente diferentes. Dentro de los registros masivos de eBay hay literalmente cientos de miles de conjuntos combinados que involucran millones de listados. Por lo tanto, en lugar de comparar el precio final de todas las subastas con un precio de partida determinado, Einav y sus colegas compararon en conjuntos coincidentes. Para combinar los resultados de las comparaciones dentro de estos cientos de miles de conjuntos combinados, Einav y sus colegas volvieron a expresar el precio inicial y el precio final en términos del valor de referencia de cada artículo (por ejemplo, su precio de venta promedio). Por ejemplo, si el controlador Taylormade Burner 09 tenía un valor de referencia de $ 100 (basado en sus ventas), entonces un precio inicial de $ 10 se expresaría como 0.1 y un precio final de $ 120 como 1.2.
Recuerde que Einav y sus colegas estaban interesados en el efecto del precio de inicio en los resultados de la subasta. En primer lugar, utilizaron la regresión lineal para estimar que los precios de partida más altos disminuyen la probabilidad de una venta, y que los precios de partida más altos aumentan el precio de venta final (con la condición de que se produzca una venta). Por sí mismos, estas estimaciones, que describen una relación lineal y se promedian sobre todos los productos, no son tan interesantes. Luego, Einav y sus colegas utilizaron el tamaño masivo de sus datos para crear una variedad de estimaciones más sutiles. Por ejemplo, al estimar el efecto por separado para una variedad de precios de inicio diferentes, encontraron que la relación entre el precio inicial y el precio de venta no es lineal (figura 2.9). En particular, para los precios de inicio entre 0.05 y 0.85, el precio inicial tiene muy poco impacto en el precio de venta, un hallazgo que fue completamente omitido en su primer análisis. Además, en lugar de promediar todos los artículos, Einav y sus colegas calcularon el impacto del precio inicial para 23 categorías diferentes de artículos (por ejemplo, artículos para mascotas, productos electrónicos y artículos deportivos) (figura 2.10). Estas estimaciones muestran que para artículos más distintivos, como los objetos de interés, el precio inicial tiene un efecto menor sobre la probabilidad de una venta y un efecto mayor en el precio final de venta. Además, para artículos más comercializados, como DVD, el precio de partida casi no tiene impacto en el precio final. En otras palabras, un promedio que combina resultados de 23 categorías diferentes de artículos oculta importantes diferencias entre estos elementos.
Incluso si no está particularmente interesado en subastas en eBay, debe admirar la forma en que la figura 2.9 y la figura 2.10 ofrecen una mejor comprensión de eBay que las estimaciones simples que describen una relación lineal y combinan muchas categorías diferentes de artículos. Además, aunque sería científicamente posible generar estas estimaciones más sutiles con experimentos de campo, el costo haría que tales experimentos fueran esencialmente imposibles.
Al igual que con los experimentos naturales, hay una serie de formas en que la coincidencia puede generar estimaciones erróneas. Creo que la mayor preocupación con las estimaciones coincidentes es que pueden estar sesgadas por cosas que no se usaron en la comparación. Por ejemplo, en sus principales resultados, Einav y sus colegas hicieron una coincidencia exacta en cuatro características: número de identificación del vendedor, categoría del artículo, título del artículo y subtítulo. Si los artículos fueran diferentes en formas que no se usaron para la comparación, esto podría crear una comparación injusta. Por ejemplo, si "budgetgolfer" bajó los precios del controlador Taylormade Burner 09 en invierno (cuando los palos de golf son menos populares), entonces podría parecer que los precios iniciales más bajos conducen a precios finales más bajos, cuando de hecho esto sería un artefacto de variación estacional en la demanda. Un enfoque para abordar esta preocupación es probar muchos tipos diferentes de emparejamiento. Por ejemplo, Einav y sus colegas repitieron su análisis al variar la ventana de tiempo utilizada para la coincidencia (los conjuntos combinados incluyeron artículos en venta en un año, en un mes y al mismo tiempo). Afortunadamente, encontraron resultados similares para todas las ventanas de tiempo. Otra preocupación con el emparejamiento surge de la interpretación. Las estimaciones de la coincidencia solo se aplican a los datos coincidentes; no se aplican a los casos que no pudieron ser emparejados. Por ejemplo, al limitar su investigación a artículos que tenían listados múltiples, Einav y sus colegas se centran en vendedores profesionales y semi-profesionales. Por lo tanto, al interpretar estas comparaciones, debemos recordar que solo se aplican a este subconjunto de eBay.
La coincidencia es una estrategia poderosa para encontrar comparaciones justas en datos no experimentales. Para muchos científicos sociales, el emparejamiento se siente mejor que los experimentos, pero esa es una creencia que puede ser revisada, ligeramente. La coincidencia en datos masivos podría ser mejor que una pequeña cantidad de experimentos de campo cuando (1) la heterogeneidad en los efectos es importante y (2) se han medido las variables importantes necesarias para el emparejamiento. La Tabla 2.4 proporciona algunos otros ejemplos de cómo se puede usar la coincidencia con las fuentes de Big Data.
Enfoque sustantivo | Gran fuente de datos | Referencia |
---|---|---|
Efecto de los tiroteos en la violencia policial | Registros de detención y registro | Legewie (2016) |
Efecto del 11 de septiembre de 2001 en familias y vecinos | Registros de votación y registros de donación | Hersh (2013) |
Contagio social | Comunicación y datos de adopción de productos | Aral, Muchnik, and Sundararajan (2009) |
En conclusión, es difícil estimar los efectos causales de los datos no experimentales, pero se pueden utilizar enfoques como los experimentos naturales y los ajustes estadísticos (por ejemplo, el emparejamiento). En algunas situaciones, estos enfoques pueden salir mal, pero cuando se implementan cuidadosamente, estos enfoques pueden ser un complemento útil del enfoque experimental que describo en el capítulo 4. Además, estos dos enfoques parecen especialmente susceptibles de beneficiarse del crecimiento de siempre. en, sistemas de big data.