2.3.2.1 incomplète

Peu importe comment "gros" votre "big data" , il n'a probablement pas les informations que vous souhaitez.

La plupart des sources de données grandes sont incomplètes, dans le sens où ils ne disposent pas des informations que vous voulez pour votre recherche. Ceci est une caractéristique commune des données qui ont été créés à des fins autres que la recherche. De nombreux chercheurs en sciences sociales ont déjà eu l'expérience de traiter avec l'incomplétude, comme une enquête existante qui n'a pas posé la question que vous vouliez. Malheureusement, les problèmes d'incomplétude ont tendance à être plus extrêmes dans les grandes données. Dans mon expérience, grande données a tendance à manquer trois types d'informations utiles pour la recherche sociale: la démographie, le comportement sur d'autres plates-formes, et les données d'opérationnaliser des constructions théoriques.

Ces trois formes de incomplétude sont illustrées dans une étude réalisée par Gueorgi Kossinets et Duncan Watts (2006) à propos de l'évolution du réseau social dans une université. Kossinets et Watts ont commencé avec les journaux de messagerie de l'université, qui avait des informations précises sur qui a envoyé des courriels à qui à quel moment (les chercheurs ne pas avoir accès au contenu des e-mails). Ces enregistrements de messages électroniques sonnent comme un ensemble de données incroyable, mais, ils sont, malgré leur taille et leur granularité-fondamentalement incomplète. Par exemple, les journaux de messagerie ne comprennent pas les données sur les caractéristiques démographiques des étudiants, tels que le sexe et l'âge. En outre, les journaux de messagerie ne comprennent pas d'informations sur la communication par le biais d'autres médias, tels que les appels téléphoniques, message texte, ou des conversations en face-à-face. Enfin, les journaux de messagerie ne sont pas directement des informations sur les relations, les constructions théoriques dans de nombreuses théories existantes. Plus tard dans le chapitre, quand je parle de stratégies de recherche, vous verrez comment Kossinets et Watts résolus ces problèmes.

Des trois types d'incomplétude, le problème des données incomplètes pour opérationnaliser constructions théoriques est le plus difficile à résoudre, et dans mon expérience, il est souvent accidentellement négligé par les scientifiques de données. En gros, les constructions théoriques sont des idées abstraites que les sociologues étudient, mais, malheureusement, ces constructions ne peuvent pas toujours être clairement définis et mesurés. Par exemple, imaginons que d'essayer de tester empiriquement la demande apparemment simple que les gens qui sont plus intelligents gagnent plus d'argent. Afin de tester cette affirmation que vous avez besoin de mesurer «l'intelligence». Mais, qu'est-ce que l'intelligence? Par exemple, Gardner (2011) a fait valoir qu'il ya en fait huit formes différentes de l' intelligence. Et, y at-il des procédures qui pourraient mesurer précisément l'une de ces formes d'intelligence? Malgré d'énormes quantités de travail par les psychologues, ces questions ne sont pas toujours des réponses claires. Ainsi, même un nombre relativement simples sinistres-gens qui sont plus intelligents gagnent plus d' argent peut être difficile d'évaluer empiriquement , car il peut être difficile d'opérationnaliser des constructions théoriques dans les données. D' autres exemples de constructions théoriques qui sont importants mais difficiles à opérationnaliser inclure les «normes», «capital social» et la «démocratie». Les sociologues appellent le match entre les concepts théoriques et construction de données validité (Cronbach and Meehl 1955) . Et, comme cette liste de constructions suggère, la validité de construction est un problème que les scientifiques sociaux ont lutté avec un temps très long, même quand ils travaillaient avec des données qui ont été recueillies dans le but de la recherche. Lorsque vous travaillez avec des données collectées à des fins autres que la recherche, les problèmes de validité de construction sont encore plus difficile (Lazer 2015) .

Lorsque vous lisez un document de recherche, d'une façon rapide et utile pour évaluer les préoccupations au sujet de la validité de construction est de prendre la revendication principale dans le document, qui est généralement exprimée en termes de constructions, et ré-exprimer en termes de données utilisées. Par exemple, considérons deux études hypothétiques qui prétendent montrer que les gens les plus intelligents gagnent plus d'argent:

  • Étude 1: les gens qui obtiennent de bons résultats sur le test-Raven Progressive Matrices essai bien étudié l' intelligence analytique (Carpenter, Just, and Shell 1990) -ont revenus plus élevés rapportés sur leurs déclarations de revenus
  • Étude 2: personnes sur Twitter qui ont utilisé des mots plus longs sont plus susceptibles de mentionner les marques de luxe

Dans les deux cas, les chercheurs pourraient affirmer qu'ils ont montré que les gens les plus intelligents gagnent plus d'argent. Mais, dans la première étude, les concepts théoriques sont bien rendus opérationnels par les données, et le second, ils ne sont pas. En outre, comme le montre cet exemple, plus de données ne résout pas automatiquement les problèmes de validité conceptuelle. Vous devriez en doute les résultats de l'étude 2 si elle impliquait un million de tweets, un milliard de tweets, ou un billion de tweets. Pour les chercheurs ne sont pas familiers avec l'idée de la validité conceptuelle, le tableau 2.2 fournit quelques exemples d'études qui ont opérationnalisé constructions théoriques en utilisant des données de traces numériques.

Tableau 2.2: Exemples de traces numériques qui sont utilisés comme mesures de concepts théoriques plus abstraits. Les sociologues appellent ce match validité de construction et il est un défi majeur à l' utilisation de sources de données grandes pour la recherche sociale (Lazer 2015) .
trace numérique construction théorique Citation
email logs d'une université (méta-données) Relations sociales Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
messages de médias sociaux sur Weibo L'engagement civique Zhang (2016)
email logs d'une entreprise (méta-données et le texte complet) ajustement culturel dans une organisation Goldberg et al. (2015)

Bien que le problème des données incomplètes pour des constructions théoriques opérationnaliser est assez difficile à résoudre, il y a trois solutions communes au problème de l'information démographique incomplète et des informations incomplètes sur le comportement sur d'autres plates-formes. La première consiste à effectivement collecter les données dont vous avez besoin; Je vais vous raconter un exemple de cela dans le chapitre 3 quand je vous dis sur les enquêtes. Malheureusement, ce type de collecte de données ne sont pas toujours possible. La deuxième solution principale est de faire ce que les scientifiques appellent de données utilisateur attribut inférence et ce que les sociologues appellent imputation. Dans cette approche, les chercheurs utilisent les informations qu'ils ont sur certaines personnes pour en déduire les attributs d'autres personnes. La troisième solution possible, celle utilisée par Kossinets et Watts-est de combiner plusieurs sources de données. Ce processus est parfois appelé la fusion ou le couplage d'enregistrements. Ma métaphore préférée pour ce processus a été proposé dans le premier paragraphe du premier article jamais écrit sur ​​le couplage d'enregistrements (Dunn 1946) :

"Chaque personne dans le monde crée un livre de vie. Ce livre commence avec la naissance et se termine par la mort. Ses pages sont constituées d'enregistrements des principaux événements de la vie. Le couplage d'enregistrements est le nom donné au processus d'assemblage des pages de ce livre dans un volume ".

Ce passage a été écrit en 1946, et à cette époque, les gens pensaient que le livre de la vie pourrait inclure les grands événements de la vie comme la naissance, le mariage, le divorce et la mort. Cependant, maintenant que tant d'informations sur les personnes est enregistrée, le livre de vie pourrait être un portrait incroyablement détaillé, si ces différentes pages (par exemple, nos traces numériques), peuvent être liés ensemble. Ce livre de la vie pourrait être une excellente ressource pour les chercheurs. Mais, le livre de vie pourrait aussi être appelé une base de données de la ruine (Ohm 2010) , qui pourrait être utilisé pour toutes sortes de fins contraires à l' éthique, comme décrit plus bas quand je parle de la nature délicate de l'information recueillie par les grandes sources de données ci - dessous et dans le chapitre 6 (éthique).