Les grands ensembles de données sont un moyen pour une fin; ils ne sont pas une fin en soi.
La première des trois bonnes caractéristiques de gros volumes de données est le plus discuté: ce sont des données importantes. Ces sources de données peuvent être grande de trois façons différentes: beaucoup de gens, beaucoup d'informations par personne, ou de nombreuses observations au fil du temps. Avoir un grand ensemble de données permet à certains types spécifiques de l'hétérogénéité de la recherche-mesure, l'étude des événements rares, la détection de petites différences, ainsi que des estimations causales à partir des données d'observation. Il semble également conduire à un type spécifique de négligence.
La première chose dont la taille est particulièrement utile va au-delà des moyennes de faire des estimations pour des sous-groupes spécifiques. Par exemple, Gary King, Jennifer Pan, et Molly Roberts (2013) ont mesuré la probabilité que les messages de médias sociaux en Chine seraient censurés par le gouvernement. En soi, cette probabilité moyenne de suppression est pas très utile pour comprendre pourquoi le gouvernement censure certains postes, mais pas d'autres. Mais, parce que leur ensemble de données comprenait 11 millions de messages, le roi et ses collègues ont également produit des estimations pour la probabilité de la censure pour les postes sur 85 catégories distinctes (par exemple, la pornographie, le Tibet et la circulation à Pékin). En comparant la probabilité de la censure pour des postes dans les différentes catégories, ils ont pu mieux comprendre comment et pourquoi le gouvernement censure certains types de messages. Avec 11 mille postes (au lieu de 11 millions de messages), ils ne seraient pas été en mesure de produire ces estimations par catégorie.
Deuxièmement, la taille est particulièrement utile pour étudier est des événements rares. Par exemple, Goel et ses collègues (2015) ont voulu étudier les différentes façons dont les tweets peuvent aller virale. Parce que les grandes cascades de re-tweets sont extrêmement rares-un sur un 3000 dont ils ont besoin pour étudier plus d'un milliard de tweets afin de trouver suffisamment grandes cascades pour leur analyse.
Troisièmement, les grands ensembles de données permettent aux chercheurs de détecter de petites différences. En fait, une grande partie de l'accent mis sur les grandes données de l'industrie est au sujet de ces petites différences: détecter de manière fiable la différence entre 1% et 1,1% taux de clics sur une annonce peut se traduire par des millions de dollars de revenus supplémentaires. Dans certains milieux scientifiques, ces petites différences pourraient ne pas être particulièrement importante (même si elles sont statistiquement significatives). Mais, dans certains milieux politiques, ces petites différences peuvent devenir importantes lorsqu'il est vu dans l'ensemble. Par exemple, s'il y a deux interventions de santé publique et un est légèrement plus efficace que l'autre, puis de passer à l'intervention plus efficace pourrait finir par sauver des milliers de vies supplémentaires.
Enfin, les grands ensembles de données augmentent considérablement notre capacité à faire des estimations causales à partir des données d'observation. Bien que grands ensembles de données ne changent pas fondamentalement les problèmes avec l'inférence causale à partir de données d'observation, l'appariement et des expériences-deux techniques naturelles que les chercheurs ont mis au point pour faire des allégations de causalité entre l'observation des données, à la fois grandement bénéficier de grands ensembles de données. Je vais vous expliquer et d'illustrer cette affirmation en détail plus loin dans ce chapitre quand je décris les stratégies de recherche.
Bien que bigness est généralement une bonne propriété lorsqu'il est utilisé correctement, je l'ai remarqué que bigness conduit généralement à une erreur conceptuelle. Pour une raison quelconque, bigness semble conduire les chercheurs à ignorer la façon dont leurs données ont été générées. Bien que bigness ne réduit pas la nécessité de se soucier de l' erreur aléatoire, il augmente le besoin de se soucier des erreurs systématiques, les types d'erreurs que je vais décrire plus en dessous proviennent de biais dans la façon dont les données sont créées et collectées. Dans un petit ensemble de données, à la fois l'erreur aléatoire et erreur systématique peuvent être importantes, mais dans une grande erreur aléatoire jeu de données est peut être en moyenne de distance et l'erreur systématique domine. Les chercheurs qui ne pensent pas à propos de l'erreur systématique va finir par utiliser leurs grands ensembles de données pour obtenir une estimation précise de la mauvaise chose; ils seront précisément inexacts (McFarland and McFarland 2015) .