Les sources de données volumineuses sont partout, mais leur utilisation pour la recherche sociale peut être difficile. Dans mon expérience, il y a quelque chose comme une règle de «non-free lunch» pour les données: si vous ne faites pas beaucoup de travail pour la collectionner, alors vous devrez probablement y consacrer beaucoup de travail et l'analyser.
Les grandes sources de données d'aujourd'hui - et probablement de demain - auront tendance à avoir 10 caractéristiques. Trois d'entre elles sont généralement (mais pas toujours) utiles pour la recherche: grande, toujours active et non réactive. Sept sont généralement (mais pas toujours) problématiques pour la recherche: incomplète, inaccessible, non représentative, dérivante, algorithmiquement confondue, sale et sensible. Beaucoup de ces caractéristiques finissent par apparaître parce que les grandes sources de données n'ont pas été créées dans le but de la recherche sociale.
Sur la base des idées contenues dans ce chapitre, je pense qu'il y a trois façons principales que les sources de données volumineuses seront les plus utiles pour la recherche sociale. Premièrement, ils peuvent permettre aux chercheurs de choisir entre des prédictions théoriques concurrentes. Des exemples de ce type de travail comprennent Farber (2015) (chauffeurs de taxi de New York) et King, Pan, and Roberts (2013) (censure en Chine). Deuxièmement, les grandes sources de données peuvent permettre une meilleure mesure de la politique grâce à la prévision immédiate. Un exemple de ce genre de travail est Ginsberg et al. (2009) (Google Flu Trends). Enfin, les sources de données volumineuses peuvent aider les chercheurs à faire des estimations causales sans effectuer d'expériences. Des exemples de ce type de travail sont Mas and Moretti (2009) (effets des pairs sur la productivité) et Einav et al. (2015) (effet du prix de départ sur les enchères à eBay). Chacune de ces approches tend cependant à exiger des chercheurs qu'ils apportent beaucoup aux données, comme la définition d'une quantité importante à estimer ou deux théories qui font des prédictions concurrentes. Ainsi, je pense que la meilleure façon de penser à ce que peuvent faire les sources de données volumineuses est qu'elles peuvent aider les chercheurs qui peuvent poser des questions intéressantes et importantes.
Avant de conclure, je pense qu'il vaut la peine de considérer que les grandes sources de données peuvent avoir un effet important sur la relation entre les données et la théorie. Jusqu'à présent, ce chapitre a pris l'approche de la recherche empirique axée sur la théorie. Mais les sources de données volumineuses permettent également aux chercheurs d'effectuer une théorisation empirique . Autrement dit, grâce à l'accumulation minutieuse de faits empiriques, de schémas et d'énigmes, les chercheurs peuvent construire de nouvelles théories. Cette approche alternative de la théorie fondée sur les données n'est pas nouvelle, et c'est Barney Glaser et Anselm Strauss (1967) qui l'ont le plus clairement exprimé avec leur appel à la théorie fondée . Cependant, cette approche fondée sur les données n'implique pas «la fin de la théorie», comme l'ont prétendu certains journalistiques autour de la recherche à l'ère numérique (Anderson 2008) . Au contraire, à mesure que l'environnement des données change, nous devrions nous attendre à un rééquilibrage dans la relation entre les données et la théorie. Dans un monde où la collecte de données était coûteuse, il était logique de recueillir uniquement les données qui, selon les théories, seraient les plus utiles. Mais, dans un monde où d'énormes quantités de données sont déjà disponibles gratuitement, il est logique d'essayer également une approche (Goldberg 2015) données (Goldberg 2015) .
Comme je l'ai montré dans ce chapitre, les chercheurs peuvent apprendre beaucoup en regardant les gens. Dans les trois prochains chapitres, je vais décrire comment nous pouvons apprendre plus et différentes choses si nous adaptons notre collecte de données et interagissons plus directement avec les gens en leur posant des questions (chapitre 3), en menant des expériences (chapitre 4) et même en les impliquant dans le processus de recherche directement (chapitre 5).