Podemos aproximar experimentos que não temos ou não podemos fazer. Duas abordagens que se beneficiam especialmente de grandes fontes de dados são experimentos naturais e correspondência.
Algumas importantes questões científicas e políticas são causais. Por exemplo, qual é o efeito de um programa de treinamento profissional nos salários? Um pesquisador que tente responder a essa pergunta pode comparar os ganhos de pessoas que se inscreveram para treinamento àquelas que não se inscreveram. Mas quanto de qualquer diferença nos salários entre esses grupos é por causa do treinamento e quanto é por causa das diferenças preexistentes entre as pessoas que se inscrevem e as que não se inscrevem? Essa é uma pergunta difícil e é uma que não desaparece automaticamente com mais dados. Em outras palavras, a preocupação com possíveis diferenças preexistentes surge não importa quantos trabalhadores estejam em seus dados.
Em muitas situações, a maneira mais forte de estimar o efeito causal de algum tratamento, como treinamento profissional, é realizar um experimento controlado aleatório, onde um pesquisador distribui aleatoriamente o tratamento para algumas pessoas e não para outras. Vou dedicar todo o capítulo 4 aos experimentos, então aqui vou me concentrar em duas estratégias que podem ser usadas com dados não experimentais. A primeira estratégia depende da procura de algo que aconteça no mundo e que, aleatoriamente (ou quase ao acaso), atribua o tratamento a algumas pessoas e não a outras. A segunda estratégia depende do ajuste estatístico dos dados não experimentais, na tentativa de considerar diferenças pré-existentes entre aqueles que receberam e não receberam o tratamento.
Um cético pode alegar que essas duas estratégias devem ser evitadas porque exigem fortes suposições, suposições difíceis de avaliar e que, na prática, são frequentemente violadas. Embora eu seja simpático a essa afirmação, acho que vai longe demais. É certamente verdade que é difícil fazer estimativas causais confiáveis a partir de dados não experimentais, mas não acho que isso signifique que nunca devemos tentar. Em particular, abordagens não experimentais podem ser úteis se a restrição logística impedir você de realizar um experimento ou se restrições éticas significarem que você não deseja executar um experimento. Além disso, abordagens não experimentais podem ser úteis se você quiser aproveitar os dados que já existem para criar um experimento controlado aleatório.
Antes de prosseguir, vale a pena notar que fazer estimativas causais é um dos tópicos mais complexos da pesquisa social e que pode levar a um debate intenso e emocional. A seguir, vou fornecer uma descrição otimista de cada abordagem, a fim de construir a intuição sobre ela, então vou descrever alguns dos desafios que surgem quando se usa essa abordagem. Mais detalhes sobre cada abordagem estão disponíveis nos materiais no final deste capítulo. Se você planeja usar qualquer uma dessas abordagens em sua própria pesquisa, recomendo muito ler um dos muitos livros excelentes sobre inferência causal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Uma abordagem para fazer estimativas causais a partir de dados não experimentais é procurar um evento que tenha designado aleatoriamente um tratamento para algumas pessoas e não para outras. Essas situações são chamadas de experimentos naturais . Um dos exemplos mais claros de um experimento natural vem da pesquisa de Joshua Angrist (1990) mede o efeito dos serviços militares nos lucros. Durante a guerra no Vietnã, os Estados Unidos aumentaram o tamanho de suas forças armadas por meio de um recrutamento. A fim de decidir quais cidadãos seriam colocados em serviço, o governo dos EUA realizou uma loteria. Todas as datas de nascimento foram escritas em um pedaço de papel e, como mostrado na figura 2.7, esses pedaços de papel foram selecionados um de cada vez para determinar a ordem em que os jovens seriam chamados a servir (mulheres jovens não estavam sujeitas). ao projecto). Com base nos resultados, os homens nascidos em 14 de setembro foram chamados primeiro, os homens nascidos em 24 de abril foram chamados segundo e assim por diante. Em última análise, nesta loteria, homens nascidos em 195 dias diferentes foram recrutados, enquanto os homens nascidos em 171 dias não o foram.
Embora possa não ser imediatamente aparente, um sorteio de rascunho tem uma semelhança crítica com um experimento controlado randomizado: em ambas as situações, os participantes são aleatoriamente designados para receber um tratamento. A fim de estudar o efeito desse tratamento randomizado, Angrist se aproveitou de um sistema de big data sempre ativo: o US Social Security Administration, que coleta informações sobre os ganhos de emprego de todo americano. Combinando as informações sobre quem foi selecionado aleatoriamente no sorteio com os dados de ganhos que foram coletados em registros administrativos do governo, Angrist concluiu que os ganhos dos veteranos eram cerca de 15% menores do que os ganhos de não-veteranos comparáveis.
Como esse exemplo ilustra, às vezes as forças sociais, políticas ou naturais atribuem tratamentos de uma maneira que pode ser aproveitada pelos pesquisadores e, às vezes, os efeitos desses tratamentos são capturados em fontes de dados grandes sempre ativas. Esta estratégia de pesquisa pode ser resumida da seguinte forma: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Para ilustrar essa estratégia na era digital, vamos considerar um estudo de Alexandre Mas e Enrico Moretti (2009) que tentou estimar o efeito de trabalhar com colegas produtivos na produtividade de um trabalhador. Antes de ver os resultados, vale a pena ressaltar que existem expectativas conflitantes que você pode ter. Por um lado, você pode esperar que trabalhar com colegas produtivos levaria um trabalhador a aumentar sua produtividade por causa da pressão dos colegas. Ou, por outro lado, você pode esperar que ter colegas que trabalham duro pode levar um trabalhador a afrouxar porque o trabalho será feito por seus colegas de qualquer maneira. A maneira mais clara de estudar os efeitos de pares sobre a produtividade seria um experimento controlado aleatório, onde os trabalhadores são aleatoriamente designados para turnos com trabalhadores de diferentes níveis de produtividade e, em seguida, a produtividade resultante é medida para todos. Os pesquisadores, no entanto, não controlam o horário dos trabalhadores em nenhum negócio real, e assim Mas e Moretti tiveram que confiar em um experimento natural envolvendo caixas em um supermercado.
Neste supermercado em particular, devido à forma como a programação era feita e a maneira como as mudanças se sobrepunham, cada caixa tinha diferentes colegas de trabalho em diferentes momentos do dia. Além disso, neste supermercado em particular, a atribuição de caixas não estava relacionada com a produtividade de seus colegas ou com a ocupação da loja. Em outras palavras, mesmo que o agendamento dos caixas não fosse determinado por uma loteria, era como se os trabalhadores às vezes fossem aleatoriamente designados para trabalhar com pares de alta (ou baixa) produtividade. Felizmente, esse supermercado também possuía um sistema de checkout para a era digital que rastreava os itens que cada caixa estava digitalizando em todos os momentos. A partir desses dados de registro de saída, Mas e Moretti conseguiram criar uma medida de produtividade precisa, individual e sempre ativa: o número de itens verificados por segundo. Combinando essas duas coisas - a variação natural na produtividade dos pares e a medida sempre ativa da produtividade - Mas e Moretti estimaram que, se um caixa fosse designado a colegas de trabalho que fossem 10% mais produtivos do que a média, sua produtividade aumentaria em 1,5%. . Além disso, eles usaram o tamanho e a riqueza de seus dados para explorar duas questões importantes: a heterogeneidade desse efeito (Para quais tipos de trabalhadores o efeito é maior?) E os mecanismos por trás do efeito (Por que ter pares de alta produtividade leva a Maior produtividade?). Voltaremos a essas duas importantes questões - heterogeneidade dos efeitos e mecanismos do tratamento - no capítulo 4, quando discutirmos os experimentos com mais detalhes.
Generalizando a partir desses dois estudos, a tabela 2.3 resume outros estudos que têm essa mesma estrutura: usando uma fonte de dados sempre ativa para medir o efeito de alguma variação aleatória. Na prática, os pesquisadores usam duas estratégias diferentes para encontrar experimentos naturais, os quais podem ser frutíferos. Alguns pesquisadores começam com uma fonte de dados sempre ativa e procuram eventos aleatórios no mundo; outros iniciam um evento aleatório no mundo e procuram fontes de dados que captem seu impacto.
Foco substantivo | Fonte de experimento natural | Fonte de dados sempre ativa | Referência |
---|---|---|---|
Efeitos de pares na produtividade | Processo de agendamento | Dados do checkout | Mas and Moretti (2009) |
Formação de amizade | Furacões | Phan and Airoldi (2015) | |
Propagação de emoções | Chuva | Lorenzo Coviello et al. (2014) | |
Transferências econômicas peer-to-peer | Tremor de terra | Dados de dinheiro móvel | Blumenstock, Fafchamps, and Eagle (2011) |
Comportamento de consumo pessoal | Desligamento do governo dos EUA em 2013 | Dados de finanças pessoais | Baker and Yannelis (2015) |
Impacto econômico dos sistemas de recomendação | Vários | Procurando dados na Amazon | Sharma, Hofman, and Watts (2015) |
Efeito do estresse no feto | Guerra de 2006 Israel-Hezbollah | Registros de nascimento | Torche and Shwed (2015) |
Comportamento de leitura na Wikipedia | Revelações de Snowden | Registros da Wikipedia | Penney (2016) |
Efeitos de pares no exercício | Clima | Rastreadores de fitness | Aral and Nicolaides (2017) |
Na discussão até agora sobre experimentos naturais, deixei de fora um ponto importante: ir do que a natureza forneceu para o que você quer às vezes pode ser bastante complicado. Vamos voltar ao exemplo de esboço do Vietnã. Neste caso, Angrist estava interessado em estimar o efeito do serviço militar nos ganhos. Infelizmente, o serviço militar não foi atribuído aleatoriamente; em vez disso, estava sendo elaborado que foi atribuído aleatoriamente. No entanto, nem todos que foram recrutados serviram (houve uma variedade de isenções), e nem todos que serviram foram convocados (as pessoas podiam ser voluntárias para servir). Como a redação foi escolhida aleatoriamente, um pesquisador pode estimar o efeito de ser elaborado para todos os homens no rascunho. Mas Angrist não queria saber o efeito de ser convocado; ele queria saber o efeito de servir nas forças armadas. Para fazer esta estimativa, no entanto, suposições adicionais e complicações são necessárias. Em primeiro lugar, os pesquisadores precisam supor que a única maneira pela qual os rendimentos afetados são afetados é através do serviço militar, uma suposição chamada restrição de exclusão . Essa suposição poderia estar errada se, por exemplo, os homens que foram recrutados permanecessem na escola por mais tempo para evitar servir ou se os empregadores tivessem menor probabilidade de contratar homens que fossem convocados. Em geral, a restrição de exclusão é uma suposição crítica, e geralmente é difícil de verificar. Mesmo que a restrição de exclusão esteja correta, ainda é impossível estimar o efeito do serviço em todos os homens. Em vez disso, verifica-se que os pesquisadores só podem estimar o efeito em um subconjunto específico de homens chamados compliers (homens que serviriam quando redigidos, mas não serviriam quando não (Angrist, Imbens, and Rubin 1996) redigidos) (Angrist, Imbens, and Rubin 1996) . Compliers, no entanto, não eram a população original de interesse. Observe que esses problemas surgem mesmo no caso relativamente limpo do sorteio da proposta. Um outro conjunto de complicações surge quando o tratamento não é atribuído por uma loteria física. Por exemplo, no estudo de caixas de Mas e Moretti, surgem questões adicionais sobre a suposição de que a atribuição de pares é essencialmente aleatória. Se essa suposição fosse fortemente violada, poderia influenciar suas estimativas. Para concluir, experimentos naturais podem ser uma estratégia poderosa para fazer estimativas causais a partir de dados não experimentais, e grandes fontes de dados aumentam nossa capacidade de capitalizar experimentos naturais quando eles ocorrem. No entanto, provavelmente exigirá grande cuidado - e às vezes suposições fortes - para ir do que a natureza forneceu à estimativa que você deseja.
A segunda estratégia sobre a qual eu gostaria de fazer estimativas causais a partir de dados não experimentais depende do ajuste estatístico de dados não experimentais, na tentativa de explicar as diferenças preexistentes entre aqueles que receberam e não receberam o tratamento. Existem muitas abordagens de ajuste, mas vou me concentrar em uma chamada de correspondência . Na comparação, o pesquisador analisa os dados não experimentais para criar pares de pessoas semelhantes, exceto que um recebeu o tratamento e outro não. No processo de correspondência, os pesquisadores estão na verdade também podando ; isto é, descartando casos em que não há correspondência óbvia. Assim, esse método seria mais precisamente chamado de correspondência e remoção, mas eu ficaria com o termo tradicional: correspondência.
Um exemplo do poder de combinar estratégias com fontes massivas de dados não experimentais vem da pesquisa sobre o comportamento do consumidor por Liran Einav e colegas (2015) . Eles estavam interessados em leilões que acontecem no eBay e, ao descrever seu trabalho, vou me concentrar no efeito do preço inicial do leilão nos resultados do leilão, como o preço de venda ou a probabilidade de uma venda.
A maneira mais ingênua de estimar o efeito do preço inicial no preço de venda seria simplesmente calcular o preço final para leilões com preços iniciais diferentes. Essa abordagem estaria bem se você quisesse prever o preço de venda dado o preço inicial. Mas se a sua pergunta diz respeito ao efeito do preço inicial, esta abordagem não funcionará porque não se baseia em comparações justas; os leilões com preços iniciais mais baixos podem ser bem diferentes daqueles com preços iniciais mais altos (por exemplo, eles podem ser para diferentes tipos de mercadorias ou incluir diferentes tipos de vendedores).
Se você já está ciente dos problemas que podem surgir ao fazer estimativas causais a partir de dados não experimentais, você pode ignorar a abordagem ingênua e considerar a execução de um experimento de campo em que você venderia um item específico - digamos, um taco de golfe conjunto de parâmetros de leilão - digamos, frete grátis e leilão abertos por duas semanas -, mas com preços iniciais atribuídos aleatoriamente. Ao comparar os resultados de mercado resultantes, este experimento de campo ofereceria uma medida muito clara do efeito do preço inicial no preço de venda. Mas essa medida só se aplica a um produto específico e um conjunto de parâmetros de leilão. Os resultados podem ser diferentes, por exemplo, para diferentes tipos de produtos. Sem uma teoria forte, é difícil extrapolar deste experimento único para toda a gama de possíveis experiências que poderiam ter sido executadas. Além disso, os experimentos de campo são suficientemente caros para que seja impossível executar todas as variações que você queira tentar.
Em contraste com as abordagens ingênuas e experimentais, Einav e seus colegas adotaram uma terceira abordagem: correspondência. O principal truque em sua estratégia é descobrir coisas semelhantes às experiências de campo que já aconteceram no eBay. Por exemplo, a figura 2.8 mostra algumas das 31 listagens para exatamente o mesmo clube de golfe - um motorista da Taylormade Burner 09 - sendo vendido exatamente pelo mesmo vendedor - “budgetgolfer”. No entanto, essas 31 listagens têm características ligeiramente diferentes, como diferentes preço, datas de término e taxas de envio. Em outras palavras, é como se “budgetgolfer” estivesse realizando experimentos para os pesquisadores.
Estas listagens do Taylormade Burner 09 Driver sendo vendidas por “budgetgolfer” são um exemplo de um conjunto de listagens combinadas, onde exatamente o mesmo item está sendo vendido exatamente pelo mesmo vendedor, mas cada vez com características ligeiramente diferentes. Dentro dos enormes logs do eBay existem literalmente centenas de milhares de conjuntos combinados envolvendo milhões de listagens. Assim, ao invés de comparar o preço final para todos os leilões com um determinado preço inicial, Einav e seus colegas compararam dentro de conjuntos casados. Para combinar os resultados das comparações nessas centenas de milhares de conjuntos casados, a Einav e seus colegas expressaram novamente o preço inicial e o preço final em termos do valor de referência de cada item (por exemplo, seu preço médio de venda). Por exemplo, se o Driver Taylormade Burner 09 tivesse um valor de referência de $ 100 (com base em suas vendas), então um preço inicial de $ 10 seria expresso como 0,1 e um preço final de $ 120 como 1,2.
Lembre-se que Einav e seus colegas estavam interessados no efeito do preço inicial nos resultados do leilão. Primeiro, eles usaram a regressão linear para estimar que preços iniciais mais altos diminuem a probabilidade de uma venda e que preços iniciais mais altos aumentam o preço final de venda (dependendo da ocorrência de uma venda). Por si só, essas estimativas - que descrevem um relacionamento linear e têm uma média de todos os produtos - não são tão interessantes. Então, Einav e seus colegas usaram o enorme tamanho de seus dados para criar uma variedade de estimativas mais sutis. Por exemplo, estimando o efeito separadamente para uma variedade de preços iniciais diferentes, eles descobriram que a relação entre preço inicial e preço de venda é não-linear (figura 2.9). Em particular, para preços iniciais entre 0,05 e 0,85, o preço inicial tem muito pouco impacto sobre o preço de venda, uma conclusão que foi completamente perdida pela primeira análise. Além disso, em vez de calcular a média de todos os itens, Einav e colegas estimaram o impacto do preço inicial para 23 categorias diferentes de itens (por exemplo, suprimentos para animais de estimação, eletrônicos e memorabilia esportiva) (figura 2.10). Essas estimativas mostram que para itens mais distintos - como memorabilia - o preço inicial tem um efeito menor sobre a probabilidade de uma venda e um efeito maior sobre o preço final de venda. Além disso, para itens mais comercializados, como os DVDs, o preço inicial quase não tem impacto no preço final. Em outras palavras, uma média que combina resultados de 23 categorias diferentes de itens oculta diferenças importantes entre esses itens.
Mesmo que você não esteja particularmente interessado em leilões no eBay, é preciso admirar a maneira como a figura 2.9 e a figura 2.10 oferecem uma compreensão mais rica do eBay do que estimativas simples que descrevem um relacionamento linear e combinam muitas categorias diferentes de itens. Além disso, embora fosse cientificamente possível gerar essas estimativas mais sutis com experimentos de campo, o custo tornaria essas experiências essencialmente impossíveis.
Como nos experimentos naturais, há várias maneiras de a correspondência levar a estimativas ruins. Eu acho que a maior preocupação com as estimativas de correspondência é que elas podem ser influenciadas por coisas que não foram usadas na correspondência. Por exemplo, em seus resultados principais, Einav e seus colegas fizeram correspondência exata em quatro características: número de ID do vendedor, categoria do item, título do item e subtítulo. Se os itens fossem diferentes de formas que não foram usadas para correspondência, isso poderia criar uma comparação injusta. Por exemplo, se “budgetgolfer” baixou os preços do Taylormade Burner 09 Driver no inverno (quando os clubes de golfe são menos populares), pode parecer que os preços iniciais mais baixos levam a preços finais mais baixos, quando na verdade isso seria um artefato variação sazonal na demanda. Uma abordagem para lidar com essa preocupação é tentar vários tipos diferentes de correspondência. Por exemplo, Einav e colegas repetiram sua análise enquanto variavam a janela de tempo usada para correspondência (conjuntos combinados incluíam itens à venda em um ano, dentro de um mês e contemporaneamente). Felizmente, eles encontraram resultados semelhantes para todas as janelas de tempo. Uma preocupação adicional com a correspondência surge da interpretação. As estimativas de correspondência aplicam-se apenas aos dados correspondentes. eles não se aplicam aos casos que não puderam ser correspondidos. Por exemplo, limitando sua pesquisa a itens que tinham várias listagens, Einav e seus colegas estão se concentrando em vendedores profissionais e semiprofissionais. Assim, ao interpretar essas comparações, devemos lembrar que elas se aplicam apenas a esse subconjunto do eBay.
A correspondência é uma estratégia poderosa para encontrar comparações justas em dados não experimentais. Para muitos cientistas sociais, a correspondência é a segunda melhor para os experimentos, mas essa é uma crença que pode ser revisada, levemente. A correspondência em dados massivos pode ser melhor do que um pequeno número de experimentos de campo quando (1) a heterogeneidade nos efeitos é importante e (2) as variáveis importantes necessárias para a correspondência foram medidas. A Tabela 2.4 fornece alguns outros exemplos de como a correspondência pode ser usada com fontes de big data.
Foco substantivo | Grande fonte de dados | Referência |
---|---|---|
Efeito de tiroteios na violência policial | Registros de parada e gravação | Legewie (2016) |
Efeito de 11 de setembro de 2001 em famílias e vizinhos | Registros de votação e registros de doação | Hersh (2013) |
Contágio social | Comunicação e dados de adoção de produtos | Aral, Muchnik, and Sundararajan (2009) |
Em conclusão, estimar os efeitos causais de dados não experimentais é difícil, mas abordagens como experimentos naturais e ajustes estatísticos (por exemplo, correspondência) podem ser usados. Em algumas situações, essas abordagens podem dar errado, mas quando implantadas com cuidado, essas abordagens podem ser um complemento útil para a abordagem experimental que descrevo no capítulo 4. Além disso, essas duas abordagens parecem especialmente propícias a se beneficiar do crescimento de sempre. em grandes sistemas de dados.