Podemos aproximar experiências que não podemos fazer. Duas abordagens que beneficiar especialmente a partir da era digital estão combinando e experimentos naturais.
Muitas questões científicas e políticas importantes são causal. Vamos considerar, por exemplo, a seguinte pergunta: qual é o efeito de um programa de capacitação para o trabalho sobre os salários? Uma maneira de responder a esta pergunta seria com um experimento controlado e randomizado, onde os trabalhadores foram aleatoriamente designados para receber treinamento ou não receber formação. Em seguida, os pesquisadores poderiam estimar o efeito do treinamento para estes participantes simplesmente comparando os salários de pessoas que receberam o treinamento para aqueles que não recebê-lo.
A simples comparação é válida por causa de algo que acontece antes dos dados foi coletada mesmo: a randomização. Sem randomização, o problema é muito mais complicado. Um pesquisador poderia comparar os salários de pessoas que assinaram voluntariamente para o treinamento para aqueles que não inscrever-se. Essa comparação provavelmente mostram que as pessoas que receberam formação ganhou mais, mas quanto disso é por causa do treinamento e quanto disso é porque as pessoas que se inscrever para o treinamento são diferentes daqueles que não inscrever-se para o treinamento? Em outras palavras, não é justo comparar o salário destes dois grupos de pessoas?
Esta preocupação com comparações justas leva alguns pesquisadores a acreditar que é impossível fazer estimativas causais sem executar um experimento. Esta afirmação vai longe demais. Embora seja verdade que os experimentos fornecem a evidência mais forte para efeitos causais, existem outras estratégias que podem fornecer estimativas causais valiosos. Em vez de pensar que as estimativas causais são ou fácil (no caso de experimentos) ou impossível (no caso de passivamente observada de dados), é melhor pensar em estratégias para fazer estimativas causais situadas ao longo de um continuum do mais forte para o mais fraco (Figura 2.4). No final mais forte do contínuo são randomizados experiências controladas. Mas, estes são muitas vezes difíceis de fazer em investigação social, porque muitos tratamentos requerem quantidades irreais de cooperação de governos ou empresas; simplesmente há muitas experiências que não podemos fazer. Vou dedicar todo o Capítulo 4 para os pontos fortes e fracos de experimentos controlados e randomizados, e eu vou argumentar que, em alguns casos, há fortes razões éticas para preferir observacional para métodos experimentais.
Movendo-se ao longo do continuum, há situações em que os investigadores não randomizados de forma explícita. Ou seja, os pesquisadores estão tentando aprender o conhecimento experimento semelhante sem realmente fazer uma experiência; Naturalmente, isso vai ser complicado, mas grande dados melhora significativamente a nossa capacidade de fazer estimativas causais nestas situações.
Às vezes, há locais onde a aleatoriedade no mundo acontece para criar algo como um experimento para os investigadores. Estes projetos são chamados de experimentos naturais, e eles serão analisados em pormenor na secção 2.4.3.1. Duas características das grandes fontes de-seus dados a natureza sempre-on e seu tamanho aumenta muito nossa capacidade de aprender a partir de experimentos naturais quando eles ocorrem.
Indo mais longe de experimentos aleatórios controlados, às vezes não há nem mesmo um evento na natureza que podemos usar para aproximar um experimento natural. Nesses ambientes, podemos cuidadosamente construir comparações dentro dados não-experimentais, numa tentativa de aproximar um experimento. Estes projetos são chamados de correspondência, e eles serão analisados em pormenor na secção 2.4.3.2. Como experimentos naturais, de correspondência é um projeto que beneficia também de fontes de dados grandes. Em particular, o tamanho, tanto em massa em termos de número de casos eo tipo de informação per case-facilita grandemente correspondente. A principal diferença entre experiências naturais e de correspondência é que, em experimentos naturais o pesquisador conhece o processo através do qual o tratamento foi atribuído e acredita que ele seja aleatória.
O conceito de comparações justas que motivaram os desejos de fazer experiências também está na base das duas abordagens alternativas: experimentos naturais e combinando. Estas abordagens lhe permitirá estimar os efeitos causais a partir de dados passivamente observados por descobrir comparações justas sentam-se dentro dos dados que você já tem.