2.4.3.1 experimentos naturais

Experiências naturais tirar proveito de acontecimentos aleatórios no mundo. aleatório evento + always-on sistema de dados = experimento natural

A chave para experimentos aleatórios controlados que permitem comparação justa é a randomização. No entanto, de vez em quando acontece alguma coisa no mundo que, essencialmente, atribui as pessoas aleatoriamente ou quase aleatoriamente para diferentes tratamentos. Um dos mais claros exemplos da estratégia de usar experimentos naturais vem da pesquisa de Angrist (1990) , que mede o efeito dos serviços militares sobre os ganhos.

Durante a guerra do Vietnã, os Estados Unidos aumentaram o tamanho de suas forças armadas através de um projecto. A fim de decidir quais os cidadãos seriam chamados em serviço, o governo dos EUA realizou um sorteio. Cada data de nascimento foi representado sobre um pedaço de papel, e estes artigos foram colocados num frasco de vidro grande. Como mostrado na Figura 2.5, estes pedaços de papel foram retirados do frasco um de cada vez para determinar a ordem que os jovens seriam chamados a servir (as mulheres jovens não estavam sujeitos ao projecto). Com base nos resultados, os homens nascidos em 14 de setembro foram chamados em primeiro lugar, os homens nascidos em 24 de abril foram chamados segundo, e assim por diante. Em última análise, neste sorteio, os homens nascidos em 195 dias diferentes foram chamados para o serviço, enquanto os homens nascidos em 171 dias não foram chamados.

Figura 2.5: O deputado Alexander Pirnie (R-NY) desenhando a primeira cápsula para o projecto de serviço seletivo em 1 de Dezembro de 1969. Joshua Angrist (1990) combinou o projecto de loteria com ganhos dados da Administração de Segurança Social para estimar o efeito do serviço militar sobre os ganhos. Este é um exemplo de pesquisa usando um experimento natural. Fonte: Wikimedia Commons

Figura 2.5: O deputado Alexander Pirnie (R-NY) desenhando a primeira cápsula para o projecto de serviço seletivo em 1 de Dezembro de 1969. Joshua Angrist (1990) combinou o projecto de loteria com ganhos dados da Administração de Segurança Social para estimar o efeito do serviço militar sobre os ganhos. Este é um exemplo de pesquisa usando um experimento natural. Fonte: Wikimedia Commons

Embora possa não ser imediatamente aparente, um projecto de lotaria tem uma semelhança fundamental para um experimento controlado randomizado: em ambas as situações os participantes são designados aleatoriamente para receber um tratamento. No caso de o projecto de loteria, se estamos interessados ​​em aprender sobre os efeitos do projecto de elegibilidade e do serviço militar sobre os ganhos do mercado de trabalho subsequentes, podemos comparar os resultados para as pessoas cujas datas de nascimento foram abaixo do limite de loteria (por exemplo, 14 de setembro de Abril 24, etc.) com os resultados para as pessoas cujos aniversários foram após o corte (por exemplo, 20 de fevereiro, 2 de dezembro, etc.).

Dado que este tratamento de elaboração tem sido atribuída aleatoriamente, que pode, em seguida, medir o efeito deste tratamento por qualquer resultado que tenha sido medido. Por exemplo, Angrist (1990) combinou a informação sobre quem foi selecionado aleatoriamente no projecto com dados do salário que foram recolhidos pela Administração da Segurança Social para concluir que os ganhos dos veteranos brancos foram cerca de 15% menos do que os rendimentos dos não-veteranos comparáveis . Outros pesquisadores usaram um truque semelhante também. Por exemplo, Conley and Heerwig (2011) combinou a informação sobre quem foi selecionado aleatoriamente no projecto com os dados domésticos recolhidos a partir da Pesquisa Censo de 2000 e 2005 American Community e descobriu que tanto tempo depois do projecto, houve pouco efeito a longo prazo de o serviço militar na variedade de resultados, tais como a posse de habitação (possuir contra alugar) e estabilidade residencial (probabilidade de ter movido em cinco anos anteriores).

Como este exemplo ilustra, por vezes, as forças sociais, políticas ou naturais criar experiências ou quase-experimentos que podem ser aproveitados pelos pesquisadores. Muitas vezes experimentos naturais são a melhor maneira para estimar relações de causa e efeito em ambientes onde não é ético ou prático para executar experimentos aleatórios controlados. Eles são uma estratégia importante para descobrir comparações justas em dados não-experimentais. Esta estratégia de pesquisa pode ser resumido pela seguinte equação:

\ [\ text {aleatório (ou como se aleatório) evento} + \ text {always-on fluxo de dados} = \ text {experimento natural} \ qquad (2.1) \]

No entanto, a análise das experiências naturais pode ser bastante complicado. Por exemplo, no caso de o projecto de Vietnam, nem todo mundo que foi draft-elegíveis acabou servindo (havia uma variedade de isenções). E, ao mesmo tempo, algumas pessoas que não foram draft-elegíveis ofereceu para prestar serviço. Era como se de um ensaio clínico de um novo medicamento, algumas pessoas no grupo de tratamento não tomar os medicamentos e algumas das pessoas do grupo de controle de alguma forma receberam a droga. Este problema, chamado não cumprimento de dois lados, bem como muitos outros problemas são descritos em maior detalhe em algumas das leituras recomendadas no final deste capítulo.

A estratégia de tirar proveito de ocorrência natural atribuição aleatória precede a era digital, mas a prevalência de big data faz com que esta estratégia muito mais fácil de usar. Depois de perceber algum tratamento foi atribuído aleatoriamente, fontes de dados grandes podem fornecer os dados resultado que você precisa, a fim de comparar os resultados para as pessoas nas condições de tratamento e controle. Por exemplo, em seu estudo sobre os efeitos do projecto e serviço militar, Angrist fez uso dos ganhos registros da Administração da Segurança Social; sem esses dados de resultado, seu estudo não teria sido possível. Neste caso, a Administração da Segurança Social é a sempre-em fonte de dados grande. Como existem mais e mais coletadas automaticamente fontes de dados, teremos mais dados resultado que pode medir os efeitos das mudanças criadas pela variação exógena.

Para ilustrar esta estratégia na era digital, vamos considerar de Mas e Moretti (2009) pesquisa elegante sobre o efeito dos pares sobre a produtividade. Embora na superfície pode parecer diferente do que o estudo de Angrist sobre os efeitos do Projeto de Vietnam, na estrutura ambos seguem o padrão na eq. 2.1.

Mas e Moretti medido como os pares afetar a produtividade dos trabalhadores. Por um lado, ter um par trabalhando duro pode levar os trabalhadores a aumentar a sua produtividade por causa da pressão dos pares. Ou, por outro lado, um disco de pares de trabalho pode levar outros trabalhadores a afrouxar ainda mais. A maneira mais clara para estudar os efeitos de pares sobre a produtividade seria um experimento controlado e randomizado, onde os trabalhadores são designados aleatoriamente para turnos com os trabalhadores de diferentes níveis de produtividade e produtividade, então resultante é medida para todos. Os pesquisadores, no entanto, não controlar a agenda dos trabalhadores em qualquer negócio real, e assim Mas e Moretti teve de contar com um experimento natural que ocorreu em um supermercado.

Assim como eq. 2.1, o estudo teve duas partes. Primeiro, eles usaram os logs do sistema de supermercado para ter um precisas, individual e always-on medida de produtividade: o número de itens verificados por segundo. E, em segundo lugar, por causa da maneira que a programação foi feito neste supermercado, eles têm perto de composição aleatória de pares. Em outras palavras, mesmo que o agendamento de caixas não é determinada por uma lotaria, que era essencialmente aleatória. Na prática, a confiança que temos em experimentos naturais frequentemente depende da plausibilidade dessa "como se" reivindicação aleatória. Aproveitando esta variação aleatória, Mas e Moretti descobriram que trabalhar com colegas de produtividade mais elevados aumenta a produtividade. Além disso, Mas e Moretti usado o tamanho ea riqueza do seu conjunto de dados para ir além da estimativa de causa e efeito para explorar duas questões mais importantes e sutis: a heterogeneidade desse efeito (para os quais os tipos de trabalhadores é o efeito maior) e mecanismo por trás do efeito (por que ter colegas de alta produtividade levar a uma maior produtividade). Nós vamos voltar para estes dois importantes problemas de heterogeneidade de efeitos e mecanismos-no Capítulo 5 de tratamento quando discutimos experiências em mais detalhes.

Generalizando a partir dos estudos sobre o efeito do Projeto de Vietnam sobre os rendimentos e o estudo do efeito dos pares sobre a produtividade, a Tabela 2.3 resume outros estudos que têm esta mesma estrutura exata: usando uma always-on fonte de dados para medir o impacto de algum evento . Como a Tabela 2.3 deixa claro, experimentos naturais estão por toda parte se você só sabe como olhar para eles.

Tabela 2.3: Exemplos de experimentos naturais que utilizam fontes de dados grandes. Todos estes estudos seguem a mesma receita básica: evento aleatório (ou como se aleatório) + always-on sistema de dados. Veja Dunning (2012) para mais exemplos.
foco substancial Fonte do experimento natural Always-on de dados de origem Citação
Intercâmbio efeitos sobre a produtividade processo de agendamento dados de checkout Mas and Moretti (2009)
formação amizade furacões Facebook Phan and Airoldi (2015)
Disseminação de emoções chuva Facebook Coviello et al. (2014)
Peer to peer transferências econômicas tremor de terra Dados de dinheiro móvel Blumenstock, Fafchamps, and Eagle (2011)
comportamento de consumo pessoal 2013 paralisação do governo dos EUA dados de finanças pessoais Baker and Yannelis (2015)
impacto económico das sistemas de recomendação vários dados de navegação na Amazon Sharma, Hofman, and Watts (2015)
Efeito do estresse sobre bebês em gestação 2006 guerra Israel-Hezbollah registros de nascimento Torche and Shwed (2015)
Leitura comportamento na Wikipedia revelações Snowden logs de wikipedia Penney (2016)

Na prática, os pesquisadores usam duas estratégias diferentes para encontrar experimentos naturais, sendo que ambos podem ser frutífera. Alguns pesquisadores começar com a fonte always-on de dados e procurar eventos aleatórios em todo o mundo; outros começam com eventos aleatórios em todo o mundo e procurar fontes de dados que captam seu impacto. Finalmente, observe que a força dos experimentos naturais não vem da sofisticação da análise estatística, mas a partir do cuidado em descobrir uma comparação justa criada por um feliz acaso da história.