À l'ère analogique, la collecte de données sur le comportement - qui fait quoi et quand - est coûteuse, et donc relativement rare. Maintenant, à l'ère numérique, les comportements de milliards de personnes sont enregistrés, stockés et analysables. Par exemple, chaque fois que vous cliquez sur un site Web, effectuez un appel sur votre téléphone mobile ou payez quelque chose avec votre carte de crédit, un enregistrement numérique de votre comportement est créé et stocké par une entreprise. Parce que ces types de données sont un sous-produit des actions quotidiennes des gens, ils sont souvent appelés traces numériques . En plus de ces traces détenues par les entreprises, les gouvernements ont également des données incroyablement riches sur les personnes et les entreprises. Ensemble, ces documents commerciaux et gouvernementaux sont souvent appelés Big Data .
Le flot toujours croissant des données massives signifie que nous sommes passés d'un monde où les données comportementales étaient rares à un monde où les données comportementales sont abondantes. Une première étape pour apprendre des données massives consiste à réaliser qu'elles font partie d'une catégorie plus large de données qui a été utilisée pour la recherche sociale depuis de nombreuses années: les données d'observation . En gros, les données d'observation sont toutes les données qui résultent de l'observation d'un système social sans intervenir d'une manière ou d'une autre. Une manière grossière d'y penser est que les données observationnelles sont tout ce qui ne consiste pas à parler avec des personnes (p. Ex. Enquêtes, sujet du chapitre 3) ou à modifier les environnements des gens (p. Ex. Expériences, sujet du chapitre 4). Ainsi, en plus des documents commerciaux et gouvernementaux, les données d'observation comprennent également des éléments tels que le texte d'articles de journaux et de photos satellites.
Ce chapitre a trois parties. Premièrement, dans la section 2.2, je décris plus en détail les grandes sources de données et clarifie une différence fondamentale entre elles et les données qui ont généralement été utilisées pour la recherche sociale dans le passé. Ensuite, dans la section 2.3, je décris dix caractéristiques communes des grandes sources de données. Comprendre ces caractéristiques vous permet de reconnaître rapidement les forces et les faiblesses des sources existantes et vous aidera à exploiter les nouvelles sources qui seront disponibles dans le futur. Enfin, dans la section 2.4, je décris trois stratégies de recherche principales que vous pouvez utiliser pour apprendre à partir de données d'observation: compter des choses, prévoir des choses et approximer une expérience.