Nous pouvons rapprocher les expériences que nous ne pouvons pas faire. Deux approches en particulier bénéficient de l'ère numérique répondent et expériences naturelles.
De nombreuses questions scientifiques et politiques importantes sont causales. Prenons, par exemple, la question suivante: quel est l'effet d'un programme de formation professionnelle sur les salaires? Une façon de répondre à cette question serait avec une expérience contrôlée randomisée où les travailleurs ont été randomisés pour recevoir soit la formation ou non recevoir une formation. Ensuite, les chercheurs pourraient estimer l'effet de la formation de ces participants en comparant simplement les salaires des personnes qui ont reçu la formation à ceux qui ne l'a pas reçu.
La simple comparaison est valide en raison de quelque chose qui se passe avant les données ont été collectées même: la randomisation. Sans randomisation, le problème est beaucoup plus délicat. Un chercheur pourrait comparer les salaires des personnes qui ont signé volontairement pour la formation à ceux qui ne signent-up. Cette comparaison serait probablement montrer que les personnes ayant reçu une formation ont gagné plus, mais combien cela est à cause de la formation et combien de cela est parce que les gens qui signent-up pour la formation sont différents de ceux qui ne signent-up pour la formation? En d'autres termes, est-il juste de comparer les salaires de ces deux groupes de personnes?
Cette préoccupation au sujet des comparaisons justes conduit certains chercheurs à croire qu'il est impossible de faire des estimations de causalité sans courir une expérience. Cette affirmation va trop loin. Il est vrai que les expériences fournissent la preuve la plus forte pour les effets de causalité, il existe d'autres stratégies qui peuvent fournir des estimations de causalité précieuses. Au lieu de penser que les estimations de causalité sont soit facile (dans le cas d'expériences) ou impossible (dans le cas d'observé passivement les données), il est préférable de penser aux stratégies pour faire des estimations causales situées le long d'un continuum du plus fort au plus faible (Figure 2.4). A la fin le plus fort du continuum sont randomisés des expériences contrôlées. Mais, ceux-ci sont souvent difficiles à faire dans la recherche sociale parce que de nombreux traitements nécessitent des quantités irréalistes de coopération de la part des gouvernements ou des entreprises; tout simplement il y a beaucoup d'expériences que nous ne pouvons pas faire. Je vais consacrer tout le chapitre 4 à la fois les forces et les faiblesses des expériences contrôlées randomisées, et je vais dire que, dans certains cas, il y a des raisons éthiques fortes de préférer l'observation des méthodes expérimentales.
Se déplaçant le long du continuum, il y a des situations où les chercheurs ne sont pas explicitement randomisés. Autrement dit, les chercheurs tentent d'apprendre la connaissance de l'expérience comme sans réellement faire une expérience; naturellement, cela va être difficile, mais grande données améliore grandement notre capacité à faire des estimations causales dans ces situations.
Parfois il y a des situations où l'aléatoire dans le monde arrive à créer quelque chose comme une expérience pour les chercheurs. Ces modèles sont appelés expériences naturelles, et ils seront examinés en détail dans la section 2.4.3.1. Deux caractéristiques des grandes sources-leur données toujours sur la nature et leur taille améliore grandement notre capacité à apprendre des expériences naturelles quand ils se produisent.
Déplacement plus loin d'expériences contrôlées randomisées, parfois il n'y a même pas un événement dans la nature que l'on peut utiliser pour se rapprocher d'une expérience naturelle. Dans ces paramètres, nous pouvons construire soigneusement des comparaisons au sein des données non expérimentales dans une tentative pour se rapprocher d'une expérience. Ces dessins sont appelés correspondance, et ils seront examinés en détail dans la section 2.4.3.2. Comme des expériences naturelles, l'appariement est une conception qui bénéficie également de sources de données grandes. En particulier, la taille, à la fois massif en termes de nombre de cas et le type d'informations par cas facilite grandement l'appariement. La principale différence entre les expériences naturelles et l'appariement est que dans des expériences naturelles le chercheur connaît le processus par lequel le traitement a été attribué et estime qu'il est aléatoire.
Le concept de comparaisons justes qui ont motivé les désirs de faire des expériences sous - tend également les deux approches alternatives: expériences naturelles et l' appariement. Ces approches vous permettront d'estimer les effets de causalité à partir des données observées passivement en découvrant des comparaisons justes assis à l'intérieur des données que vous avez déjà.