À l'ère analogique, la collecte de données sur le comportement-qui fait quoi quand-était cher, et donc, relativement rare. Maintenant, à l'ère numérique, les comportements de milliards de personnes sont enregistrées, stockées et analysable. Par exemple, chaque fois que vous cliquez sur un site Web, faire un appel sur votre téléphone portable, ou de payer pour quelque chose avec votre carte de crédit, un enregistrement numérique de votre comportement est créé et stocké par une entreprise. Étant donné que ces données sont un sous-produit de tous les jours les actions des gens, ils sont souvent appelés traces numériques. En plus de ces traces détenues par les entreprises, les gouvernements ont également des données incroyablement riches au sujet des personnes et des entreprises, des données qui sont souvent numérisés et analysable. Ensemble , ces documents commerciaux et gouvernementaux sont souvent appelés big data.
Le flot sans cesse croissante des grandes données signifie que nous sommes passés d'un monde où les données comportementales était rare dans un monde où les données comportementales est abondante. Mais, parce que ces données types sont relativement nouvelles, un montant malheureux de la recherche les utiliser ressemble à des scientifiques poursuivant aveuglément les données disponibles. Ce chapitre, à la place, propose une approche fondée sur des principes pour comprendre les différentes sources de données et comment elles peuvent être utilisées. Cette riche compréhension devrait vous aider à mieux correspondre à vos questions de recherche à des sources de données appropriées. Ou, si ces sources existantes manquent, vous convaincre de recueillir vos propres données en utilisant les idées dans les chapitres à venir.
Une première étape pour apprendre à partir de données volumineuses est de réaliser que cela fait partie d'une catégorie plus large des données qui ont été utilisées pour la recherche sociale depuis de nombreuses années: les données d' observation. En gros, les données d'observation est toute donnée qui résulte de l'observation d'un système social sans intervenir de quelque façon. Une façon grossière de penser à ce sujet est que les données d'observation est tout ce qui ne concerne pas parler avec les gens (par exemple, des enquêtes, le sujet du chapitre 3) ou de changer l'environnement des populations (par exemple, des expériences, le sujet du chapitre 4). Ainsi, en plus des entreprises et des gouvernements des dossiers, des données d'observation comprend également des choses comme le texte des articles de journaux et des photos satellites.
Ce chapitre comporte trois parties. Tout d'abord, dans la section 2.2, je décris les grandes données plus en détail et de clarifier une différence fondamentale entre elle et les données qui ont été généralement utilisés pour la recherche sociale dans le passé. Puis, à la section 2.3, je décris dix caractéristiques communes des sources de données grandes. La compréhension de ces caractéristiques nous permet de reconnaître rapidement les forces et les faiblesses des sources existantes et nous aidera à exploiter les nouvelles sources qui seront créés dans l'avenir. Enfin, dans la section 2.4, je décris trois stratégies principales de recherche que vous pouvez utiliser pour apprendre à partir des données d'observation: comptage des choses, des choses de prévision, et se rapprochant d'une expérience.