Podemos aproximar experimentos que non temos ou non podemos facer. Dous enfoques que se benefician especialmente das grandes fontes de datos son os experimentos naturais e a correspondencia.
Algunhas cuestións científicas e políticas importantes son causais. Por exemplo, cal é o efecto dun programa de adestramento laboral sobre os salarios? Un investigador que intente responder esta pregunta pode comparar as ganancias das persoas que se inscribiron para a formación a aqueles que non o fixeron. Pero canto de calquera diferenza nos salarios entre estes grupos é debido á formación e canto é por mor das diferenzas preexistentes entre as persoas que se inscriben e as que non o fan? Esta é unha pregunta difícil e non se desprende automáticamente con máis datos. Noutras palabras, xorde a preocupación por posibles diferenzas preexistentes, non importa o número de traballadores nos seus datos.
En moitas situacións, a forma máis forte de estimar o efecto causal dun tratamento, como o adestramento en emprego, é executar un experimento aleatorizado controlado onde un investigador aleatoriamente entrega o tratamento a algunhas persoas e non a outras. Vou dedicar todo o capítulo 4 a experimentos, por iso aquí vou centrar en dúas estratexias que se poden usar con datos non experimentais. A primeira estratexia depende de buscar algo que suceda no mundo que ao azar (ou case aleatoriamente) asigna o tratamento a algunhas persoas e non a outras. A segunda estratexia depende de axustar estadísticamente datos non experimentais no intento de explicar diferenzas preexistentes entre os que fixeron e non recibiron o tratamento.
Un escéptico pode afirmar que estas dúas estratexias deben evitarse porque requiren supoñer fortes hipóteses que son difíciles de avaliar e que, na práctica, son frecuentemente violadas. Aínda que me sinto comprensivo con esta afirmación, creo que vai un pouco lonxe. É certo que é difícil facer estimacións causais de forma fiable a partir de datos non experimentais, pero non creo que iso implique que nunca debemos probar. En particular, as aproximacións non experimentais poden ser útiles se a restrición loxística impedelle realizar un experimento ou se as restricións éticas significan que non quere executar un experimento. Ademais, os enfoques non experimentais poden ser útiles se desexa aproveitar os datos que xa existen para deseñar un experimento controlado aleatorio.
Antes de proceder, convén tamén sinalar que facer estimacións causais é un dos temas máis complexos da investigación social e que pode provocar un debate intenso e emocional. No que segue, proporcionarei unha descrición optimista de cada enfoque para construír intuición respecto diso, entón describiré algúns dos retos que xorden ao empregar ese enfoque. Máis detalles sobre cada enfoque están dispoñibles nos materiais ao final deste capítulo. Se pensas empregar calquera destes enfoques na túa propia investigación, recomendo ler un dos excelentes libros sobre inferencia causal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Un enfoque para facer estimacións causais a partir de datos non experimentais é buscar un evento que teña asignado aleatoriamente un tratamento a algunhas persoas e non a outros. Estas situacións chámanse experimentos naturais . Un dos exemplos máis claros dun experimento natural provén da investigación de Joshua Angrist (1990) mide o efecto dos servizos militares sobre as ganancias. Durante a guerra de Vietnam, os Estados Unidos aumentaron o tamaño das súas forzas armadas mediante un borrador. Para decidir cales cidadáns entrarían en servizo, o goberno de Estados Unidos realizou unha lotería. Toda data de nacemento foi escrita nun anaco de papel e, como se mostra na figura 2.7, estes anacos de papel foron seleccionados un por un para determinar a orde en que os mozos serían chamados a servir (as mulleres novas non estaban suxeitas ao borrador). Con base nos resultados, os homes nacidos o 14 de setembro foron chamados primeiro, os homes nacidos o 24 de abril foron chamados de segunda, e así sucesivamente. En última análise, nesta lotería, os homes nacidos en 195 días diferentes foron redactados, mentres que os homes nacidos en 171 días non foron.
Aínda que poida que non sexa inmediatamente evidente, un proxecto de lotería ten unha similitud crítica con un experimento aleatorizado controlado: en ambas situacións, os participantes son asignados aleatoriamente para recibir un tratamento. Para estudar o efecto deste tratamento aleatorio, Angrist aproveitou un sistema de datos sempre en grande: a Administración de Seguridade Social de EE. UU., Que recolle información sobre practicamente todas as ganancias do emprego de Estados Unidos. Ao combinar a información sobre quen foi seleccionado aleatoriamente no proxecto de lotería cos datos de ganancias que foron recollidos nos rexistros administrativos gobernamentais, Angrist concluíu que as ganancias dos veteranos eran un 15% menos que as ganancias de non veteranos comparables.
Como este exemplo ilustra, ás veces as forzas sociais, políticas ou naturais asignan tratamentos de maneira que poden ser aproveitados polos investigadores e, por veces, os efectos destes tratamentos son capturados sempre en grandes fontes de datos. Esta estratexia de investigación pódese resumir do seguinte xeito: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Para ilustrar esta estratexia na era dixital, consideremos un estudo realizado por Alexandre Mas e Enrico Moretti (2009) que intentaron estimar o efecto do traballo con compañeiros produtivos na produtividade dun traballador. Antes de ver os resultados, vale resaltar que hai expectativas conflentes que poida ter. Por unha banda, podes esperar que o traballo con compañeiros produtivos conduza a un traballador a aumentar a súa produtividade debido á presión dos compañeiros. Ou, doutra banda, podes esperar que ter un compañeiro de traballo duro pode levar a un traballador a afastar porque o traballo será feito polos seus compañeiros de todos os xeitos. O xeito máis claro de estudar os efectos pares sobre a produtividade sería un experimento aleatorizado controlado onde os traballadores sexan asignados aleatoriamente a cambios con traballadores de diferentes niveis de produtividade e, a continuación, a produtividade resultante é medida para todos. Non obstante, os investigadores non controlan a programación dos traballadores en ningún negocio real, polo que Mas e Moretti tiveron que contar cun experimento natural que involucra caixas nun supermercado.
Neste supermercado en particular, debido ao xeito en que se fixo a programación e ao xeito en que os movementos se superponeron, cada caixa tiña compañeiros de traballo diferentes en diferentes momentos do día. Ademais, neste supermercado particular, a asignación de caixas non estaba relacionada coa produtividade dos seus pares nin coa ocupación da tenda. Noutras palabras, aínda que a programación dos cajeros non foi determinada por unha lotería, era coma se os traballadores ás veces foran asignados aleatoriamente para traballar con altos (ou baixos) compañeiros de produtividade. Afortunadamente, este supermercado tamén tiña un sistema de pagamento de idade dixital que seguía os elementos que cada caixeiro exploraba en todo momento. A partir deste rexistro de rexistro de pagamentos, Mas e Moretti foron capaces de crear unha produtividade precisa, individual e sempre con: a cantidade de elementos escaneados por segundo. Combinando estas dúas cousas: a variación natural da produtividade dos pares ea sempre produtiva, Mas e Moretti estiman que se un cajero foi asignado aos compañeiros de traballo que eran un 10% máis produtivos que os medios, a súa produtividade aumentaría nun 1,5% . Ademais, utilizaron o tamaño e a riqueza dos seus datos para explorar dúas cuestións importantes: a heteroxeneidade deste efecto (para que tipo de traballadores é o efecto máis grande?) E os mecanismos detrás do efecto (Por que ter compañeiros de alta produtividade levan a maior produtividade?). Volveremos a estas dúas cuestións importantes: a heteroxeneidade dos efectos e mecanismos de tratamento, no capítulo 4, cando discutimos os experimentos con máis detalle.
Xeneralizando a partir destes dous estudos, a táboa 2.3 resume outros estudos que teñen esta mesma estrutura: usando unha fonte de datos sempre para medir o efecto dalgunha variación aleatoria. Na práctica, os investigadores usan dúas estratexias diferentes para atopar experimentos naturais, os cales poden ser fructíferos. Algúns investigadores comezan cunha fonte de datos sempre a buscar e buscan eventos aleatorios no mundo; outros comezan un evento aleatorio no mundo e buscan fontes de datos que captan o seu impacto.
Enfoque substantivo | Fonte do experimento natural | Sempre fonte de datos | Referencia |
---|---|---|---|
Efectos pares sobre a produtividade | Proceso de programación | Datos de compra | Mas and Moretti (2009) |
Formación de amizade | Furacáns | Phan and Airoldi (2015) | |
Difusión das emocións | Choiva | Lorenzo Coviello et al. (2014) | |
Transferencias económicas entre pares | Terremoto | Datos de diñeiro móbil | Blumenstock, Fafchamps, and Eagle (2011) |
Comportamento do consumo persoal | Apagado do goberno de Estados Unidos en 2013 | Datos de finanzas persoais | Baker and Yannelis (2015) |
Impacto económico dos sistemas de recomendación | Varios | Navegando por datos en Amazon | Sharma, Hofman, and Watts (2015) |
Efecto do estrés nos bebés non nacidos | Guerra de Israel-Hezbolá 2006 | Rexistros de nacemento | Torche and Shwed (2015) |
Comportamento de lectura en Wikipedia | Reivindicacións de Snowden | Rexistros de Wikipedia | Penney (2016) |
Efectos pares sobre o exercicio | O tempo | Seguidores de fitness | Aral and Nicolaides (2017) |
Na discusión ata agora sobre os experimentos naturais, deixei de lado un punto importante: pasar do que a natureza proporcionou ao que quere pode ás veces ser bastante complicado. Volvamos ao exemplo de proxecto de Vietnam. Neste caso, Angrist estaba interesado en estimar o efecto do servizo militar sobre as ganancias. Desafortunadamente, o servizo militar non foi asignado ao azar; en vez de ser redactado que foi asignado aleatoriamente. Non obstante, non todos os que foron redactados serviron (houbo unha variedade de exencións), e non todos os que servían foron redactados (as persoas poderían ser voluntarias para servir). Debido a que foi redactado de forma aleatoria, un investigador pode estimar o efecto de ser redactado para todos os homes no borrador. Pero Angrist non quixo saber o efecto de ser redactado; quería saber o efecto de servir no exército. Para facer esta estimación, con todo, requírense supostos e complicacións adicionais. En primeiro lugar, os investigadores deben asumir que a única forma na que se redacta o impacto das ganancias é a través do servizo militar, unha suposición denominada restrición de exclusión . Esta hipótese podería ser incorrecta se, por exemplo, os homes que foron redactados mantivéronse na escola máis tempo para evitar o servizo ou se os empresarios tiñan menos probabilidades de contratar aos homes que foron redactados. En xeral, a restrición de exclusión é un suposto crítico e adoita ser difícil de verificar. Aínda que a restrición de exclusión é correcta, aínda é imposible estimar o efecto do servizo en todos os homes. En vez diso, resulta que os investigadores só poden estimar o efecto sobre un subconxunto específico de homes chamados cumpridores (homes que servirían ao redactar, pero non servirían cando non (Angrist, Imbens, and Rubin 1996) redactados) (Angrist, Imbens, and Rubin 1996) . Conformistas, con todo, non eran a poboación orixinal de interese. Teña en conta que estes problemas xorden mesmo no caso relativamente limpo do draft lotería. Un novo conxunto de complicacións xorden cando o tratamento non é asignado por unha lotería física. Por exemplo, no estudo dos caixeiros de Mas e Moretti xorden outras cuestións sobre a suposición de que a asignación de pares é esencialmente aleatoria. Se esta suposición fose violada fuertemente, podería prexudicar as súas estimacións. Para concluír, os experimentos naturais poden ser unha poderosa estratexia para facer estimacións causais a partir de datos non experimentais e as grandes fontes de datos aumentan a nosa capacidade de aproveitar os experimentos naturais cando ocorren. Non obstante, probablemente requirirá grandes coidados e, ás veces, fortes suposicións, a partir do que a natureza proporcionou á estimación que desexa.
A segunda estratexia que me gustaría comentar para facer estimacións causais a partir de datos non experimentais depende de axustar estadísticamente datos non experimentais co obxectivo de dar conta de diferenzas preexistentes entre os que fixeron e non recibiron o tratamento. Hai moitos enfoques de axuste deste tipo, pero centraréme nunha combinación chamada. Ao emparejar, o investigador mira a través de datos non experimentais para crear parellas de persoas que son similares, agás que un recibiu o tratamento e non o fixo. No proceso de correspondencia, os investigadores tamén son podas ; é dicir, descartando casos nos que non hai coincidencia obvia. Deste xeito, este método sería máis preciso chamado correspondencia-e-poda, pero quedareime co término tradicional: coincidencia.
Un exemplo do poder de combinar estratexias con fontes de datos masivos non experimentais provén da investigación sobre o comportamento dos consumidores por parte de Liran Einav e colleagues (2015) . Estaban interesados nas poxas que se producían en eBay e ao describir o seu traballo, centraréme no efecto do prezo de inicio da poxa nos resultados da poxa, como o prezo de venda ou a probabilidade de venda.
A forma máis inxenua de estimar o efecto do prezo de inicio en prezo de venda sería simplemente calcular o prezo final das poxas con prezos de partida diferentes. Esta visión estaría ben se quixeses prever o prezo de venda dado o prezo inicial. Pero se a túa pregunta se refire ao efecto do prezo de partida, este método non funcionará porque non se basea en comparacións xustas. as poxas con prezos iniciales inferiores poden ser bastante diferentes aos que teñen prezos de partida máis elevados (por exemplo, poden ser para diferentes tipos de mercadorías ou incluír diferentes tipos de vendedores).
Se xa está consciente dos problemas que poden xurdir cando se realizan estimacións causais a partir de datos non experimentais, pode omitir o enfoque inxenuo e considerar a realización dun experimento de campo onde se venderá un elemento específico, por exemplo, un club de golf cun dispositivo fixo conxunto de parámetros de poxa, por exemplo, envío gratuíto e poxa aberto por dúas semanas, pero con prezos iniciales asignados aleatoriamente. Ao comparar os resultados resultantes do mercado, este experimento de campo ofrecería unha medida moi clara do efecto do prezo inicial no prezo de venda. Pero esta medida só se aplicaría a un determinado produto e conxunto de parámetros de poxa. Os resultados poden ser diferentes, por exemplo, para diferentes tipos de produtos. Sen unha teoría forte, é difícil extrapolar deste experimento para o rango completo de posibles experimentos que se puidesen realizar. Ademais, os experimentos de campo son o suficientemente caros que non sería posible executar todas as variacións que queiras probar.
En contraste coas enfoques ingenuas e experimentais, Einav e os seus compañeiros tomaron un terceiro enfoque: coincidencia. O truco principal na súa estratexia é descubrir cousas semellantes aos experimentos de campo que xa pasaron en eBay. Por exemplo, a figura 2.8 mostra algúns dos 31 listados exactamente para o mesmo club de golf: un controlador Taylormade Burner 09 vendido por exactamente o mesmo vendedor- "budgetgolfer". Con todo, estes 31 listados teñen características un pouco diferentes, como o inicio diferente prezo, datas finais e taxas de envío. Noutras palabras, é coma se "budgetgolfer" executa experimentos para os investigadores.
Estes listados do controlador Taylormade Burner 09 que se venden por "budgetgolfer" son un exemplo dun conxunto de listas combinadas, onde o mesmo vendedor exacto está a ser vendido, pero cada vez con características un pouco diferentes. Dentro dos rexistros masivos de eBay hai literalmente centos de miles de xogos combinados que inclúen millóns de listados. Deste xeito, en vez de comparar o prezo final para todas as poxas cun prezo de partida determinado, Einav e os seus colegas comparáronse nos conxuntos correspondentes. Para combinar os resultados das comparacións dentro destes centos de miles de xogos combinados, Einav e os seus colegas volveron expresar o prezo inicial e o prezo final en función do valor de referencia de cada elemento (por exemplo, o seu prezo medio de venda). Por exemplo, se o controlador Taylormade Burner 09 tiña un valor de referencia de $ 100 (en función das súas vendas), entón un prezo inicial de $ 10 expresaríase como 0,1 e un prezo final de $ 120 como 1,2.
Lembre que Einav e os seus colegas estaban interesados no efecto do prezo inicial nos resultados da poxa. En primeiro lugar, utilizaron a regresión lineal para estimar que os prezos de inicio máis altos diminúen a probabilidade dunha venda e que os prezos de inicio máis elevados aumentan o prezo de venda final (condicionado a unha venda). Por si mesmos, estas estimacións -que describen unha relación lineal e son promediadas en todos os produtos- non son tan interesantes. Entón, Einav e os seus compañeiros usaron o tamaño masivo dos seus datos para crear unha variedade de estimacións máis sutís. Por exemplo, ao estimar o efecto por separado para unha variedade de prezos iniciales diferentes, atoparon que a relación entre o prezo inicial eo prezo de venda non lineal (figura 2.9). En particular, para comezar os prezos entre 0,05 e 0,85, o prezo de partida ten moi pouca repercusión no prezo de venda, un descubrimento que foi completamente esquecido pola súa primeira análise. Ademais, en vez de promediar sobre todos os elementos, Einav e os seus colegas estimaron o impacto do prezo de inicio por 23 categorías diferentes (por exemplo, materiais para animais, electrónicos e memorabília deportiva) (figura 2.10). Estas estimacións mostran que para elementos máis distintivos -como o prezo de inicio de memorabilios ten un menor efecto sobre a probabilidade dunha venda e un maior efecto sobre o prezo de venda final. Ademais, para os elementos máis mercantilizados, como os DVD, o prezo de partida non ten case ningún impacto sobre o prezo final. Noutras palabras, unha media que combina resultados de 23 categorías diferentes de elementos agocha diferenzas importantes entre estes elementos.
Aínda que non estea particularmente interesado nas poxas en eBay, ten que admirar o xeito no que a figura 2.9 e a figura 2.10 ofrecen unha comprensión máis rica de eBay que simples estimacións que describen unha relación lineal e combinan moitas categorías diferentes de elementos. Ademais, aínda que sería científicamente posible xerar estas estimacións máis sutís con experimentos de campo, o custo faría eses experimentos esencialmente imposibles.
Do mesmo xeito que nos experimentos naturais, hai moitas formas nas que a correspondencia pode levar a malas estimacións. Creo que a maior preocupación coas estimacións correspondentes é que poden ser prexudicadas por cousas que non foron usadas na correspondencia. Por exemplo, nos seus principais resultados, Einav e os seus colegas fixeron coincidencias exactas en catro características: o número de identificación do vendedor, a categoría do elemento, o título do elemento e o subtítulo. Se os elementos eran diferentes de maneira que non se utilizaban para combinar, entón isto podería xerar unha comparación inxusta. Por exemplo, se "budgetgolfer" baixou os prezos para o controlador Taylormade Burner 09 no inverno (cando os clubs de golf son menos populares), podería parecer que os prezos de inicio máis baixos conducen a prezos baixos finais, cando de feito isto sería un artefacto de variación estacional da demanda. Un achegamento para abordar esta preocupación é probar diferentes tipos de correspondencia. Por exemplo, Einav e os seus colegas repetiron a súa análise ao variar a xanela de tempo utilizada para coincidir (conxuntos coincidentes incluían elementos á venda dentro dun ano, nun prazo de un mes e de forma simultánea). Afortunadamente, atoparon resultados semellantes para as ventás de todos os tempos. Unha nova preocupación coa correspondencia xorde da interpretación. As estimacións da correspondencia só se aplican aos datos correspondentes; non se aplican aos casos que non puidesen coincidir. Por exemplo, ao limitar a súa investigación a elementos que tiñan múltiples listas, Einav e os seus colegas centráronse en vendedores profesionais e semi-profesionais. Deste xeito, ao interpretar estas comparacións hai que recordar que só se aplican a este subconxunto de eBay.
A coincidencia é unha estratexia poderosa para atopar comparacións xustas en datos non experimentais. Para moitos científicos sociais, a combinación sente mellor para experimentos, pero esa é unha crenza que se pode revisar lixeiramente. A coincidencia en datos masivos pode ser mellor que un pequeno número de experimentos de campo cando (1) a heteroxeneidade nos efectos é importante e (2) medíronse as variables importantes necesarias para a correspondencia. A táboa 2.4 ofrece algúns exemplos máis de como se pode empregar con grandes fontes de datos.
Enfoque substantivo | Gran fonte de datos | Referencia |
---|---|---|
Efecto dos disparos contra a violencia policial | Rexistros parados | Legewie (2016) |
Efecto do 11 de setembro de 2001 sobre familias e veciños | Rexistros de votación e rexistros de doazón | Hersh (2013) |
Contaxio social | Datos de adopción de comunicación e de produtos | Aral, Muchnik, and Sundararajan (2009) |
En conclusión, a estimación de efectos causais a partir de datos non experimentais é difícil, pero poden usarse enfoques como experimentos naturais e axustes estatísticos (por exemplo, a correspondencia). Nalgunhas situacións, estes enfoques poden ir mal, pero cando se implementan con coidado, estes enfoques poden ser un complemento útil para o enfoque experimental que describo no capítulo 4. Ademais, estes dous enfoques parecen ser especialmente susceptibles de beneficiarse do crecemento de sempre- on, grandes sistemas de datos.