Big données sont créées et collectées par les gouvernements à des fins autres que la recherche. Grâce à ces données pour la recherche, par conséquent, exige reformatage.
Une vue idéalisée de la recherche sociale imagine un scientifique ayant une idée, puis la collecte de données pour tester cette idée. Ce style de la recherche conduit à un ajustement serré entre les questions de recherche et de données, mais il est limité, car un chercheur individuel souvent ne disposent pas des ressources nécessaires pour recueillir les données dont ils ont besoin, comme les grands, riches et représentatives au niveau national des données. enquêtes sociales à grande échelle Par conséquent, beaucoup de recherche sociale dans le passé a utilisé, comme l'Enquête sociale générale (ESG), l'Étude électorale nationale américaine (ANES) et Panel Study of Income Dynamics (PSID). Ces enquête à grande échelle sont généralement géré par une équipe de chercheurs et ils sont conçus pour créer des données qui peuvent être utilisés par de nombreux chercheurs. En raison des objectifs de ces enquêtes à grande échelle, un grand soin est mis dans la conception de la collecte des données et la préparation des données résultant de l'utilisation par les chercheurs. Ces données sont par des chercheurs et des chercheurs.
La plupart des recherches sociales en utilisant des sources d'âge numériques, cependant, est fondamentalement différent. Au lieu d'utiliser les données recueillies par les chercheurs et pour les chercheurs, il utilise des sources qui ont été créés et perçus par les entreprises et les gouvernements pour leurs propres fins telles que faire un profit, en fournissant un service, ou d'administrer une loi données. Ces sources de données d' affaires et de gouvernement sont venus à être appelé big data. Faire de la recherche avec des données volumineuses est différent que de faire des recherches avec des données qui a été créé à l'origine pour la recherche. Comparez, par exemple, un site Web de médias sociaux, tels que Twitter, avec un sondage d'opinion publique traditionnelle comme l'Enquête sociale générale (ESG). Les principaux objectifs de Twitter sont de fournir un service à ses utilisateurs et de faire un profit. Dans le processus de réalisation de ces objectifs, Twitter crée des données qui pourraient être utiles pour l'étude de certains aspects de l'opinion publique. Mais, à la différence de l'Enquête sociale générale (ESG), Twitter est pas principalement axé sur la recherche sociale.
Le gros des données à long terme est désespérément vague, et elle regroupe de nombreuses choses différentes. Aux fins de la recherche sociale, je pense qu'il est utile de distinguer entre deux types de sources de données: grandes. Dossiers administratifs gouvernementaux et commerciaux dossiers administratifs gouvernementaux dossiers administratifs sont des données qui sont créées par les gouvernements dans le cadre de leurs activités courantes. Ces types de documents ont été utilisés par des chercheurs dans le passé, tels que les démographes qui étudient la naissance, les dossiers, mais le mariage et la mort les gouvernements sont de plus en collecte et en libérant des registres détaillés dans les formes analysables. Par exemple, le gouvernement de New York a installé des compteurs numériques à l'intérieur de chaque taxi dans la ville. Ces compteurs enregistrent toutes sortes de données sur chaque trajet en taxi, y compris le conducteur, l'heure de début et l'emplacement, le temps d'arrêt et de l'emplacement et le prix. Dans une étude que je vais dire plus loin dans ce chapitre, Henry Farber (2015) réaffecté ces données pour répondre à un débat fondamental dans l' économie du travail sur la relation entre les salaires horaires et le nombre d'heures travaillées.
Le deuxième type principal de grande données pour la recherche sociale est l' affaire des dossiers administratifs. Ce sont des données que les entreprises créent et recueillent dans le cadre de leurs activités courantes. Ces dossiers administratifs d'affaires sont souvent appelés traces numériques, et comprennent des choses comme les journaux de requêtes des moteurs de recherche, les messages de médias sociaux, et appellent les enregistrements à partir de téléphones mobiles. Critique, ces dossiers administratifs d'affaires ne sont pas seulement sur le comportement en ligne. Par exemple, les magasins qui utilisent des scanners check-out créent des mesures en temps réel de la productivité des travailleurs. Dans une étude que je vais vous parler plus tard dans ce chapitre, Alexandre Mas et Enrico Moretti (2009) réorientés ce supermarché données check-out pour étudier comment la productivité des travailleurs est influencée par la productivité de leurs pairs.
Comme ces deux exemples illustrent, l'idée de reformatage est fondamentale pour l'apprentissage des grandes données. Dans mon expérience, des sciences sociales et scientifiques de données approchent à cette réorientation très différemment. Les sociologues, qui sont habitués à travailler avec des données destinées à la recherche, sont prompts à souligner les problèmes avec des données repurposed tout en ignorant ses points forts. D'autre part, les scientifiques de données sont prompts à souligner les avantages des données repurposed tout en ignorant ses faiblesses. Naturellement, la meilleure approche serait un hybride. Autrement dit, les chercheurs ont besoin de comprendre les caractéristiques de ces nouvelles sources de données à la fois bonnes et mauvaises et puis comprendre comment apprendre d'eux. Et, qui est le plan pour le reste de ce chapitre. Ensuite, je vais décrire dix caractéristiques communes des entreprises et des gouvernements des données administratives. Après cela, je vais décrire trois approches de recherche qui peuvent être utilisés avec ces données, les approches qui sont bien adaptées aux caractéristiques de ces données.