Certaines des informations que les entreprises et les gouvernements ont est sensible.
Les compagnies d'assurance maladie ont des informations détaillées sur les soins médicaux reçus par leurs clients. Cette information pourrait être utilisée pour d'importantes recherches sur la santé, mais si elle devenait publique, elle pourrait entraîner des préjudices affectifs (p. Ex. Embarras) ou économiques (p. Ex. Perte d'emploi). Beaucoup d'autres grandes sources de données ont aussi des informations sensibles , ce qui explique en partie pourquoi elles sont souvent inaccessibles.
Malheureusement, il s'avère assez difficile de décider quelles informations sont réellement sensibles (Ohm 2015) , comme l'illustre le prix Netflix. Comme je le décrirai au chapitre 5, en 2006, Netflix a publié 100 millions de classements de films fournis par près de 500 000 membres et a lancé un appel ouvert où des gens du monde entier soumettaient des algorithmes susceptibles d'améliorer la capacité de Netflix à recommander des films. Avant de publier les données, Netflix a supprimé toute information d'identification personnelle évidente, telle que les noms. Mais, deux semaines après la publication des données, Arvind Narayanan et Vitaly Shmatikov (2008) ont montré qu'il était possible d'en apprendre davantage sur les classements de films de personnes en utilisant un truc que je vais vous montrer au chapitre 6. Même si un attaquant pouvait découvrir Notations de film de la personne, il ne semble toujours pas y avoir quelque chose de sensible ici. Bien que cela puisse être vrai en général, pour au moins certaines des 500 000 personnes de l'ensemble de données, les évaluations de films étaient sensibles. En fait, en réponse à la publication et à la réidentification des données, une femme lesbienne enfermée s'est jointe à un recours collectif contre Netflix. Voici comment le problème a été exprimé dans ce procès (Singel 2009) :
"[M] ovie et les données de notation contiennent des informations de nature ... hautement personnelle et sensible. Les données cinématographiques du membre exposent l'intérêt personnel d'un membre Netflix et / ou luttent contre divers problèmes hautement personnels, y compris la sexualité, la maladie mentale, le rétablissement de l'alcoolisme et la victimisation par l'inceste, la violence domestique, l'adultère et le viol.
Cet exemple montre qu'il peut y avoir des informations que certaines personnes considèrent sensibles à l'intérieur de ce qui pourrait apparaître comme une base de données bénigne. En outre, il montre que la principale défense que les chercheurs utilisent pour protéger les données sensibles - la désidentification - peut échouer de manière surprenante. Ces deux idées sont développées plus en détail au chapitre 6.
La dernière chose à garder à l'esprit au sujet des données sensibles est que la collecte sans le consentement des gens soulève des questions éthiques, même si aucun dommage spécifique n'est causé. Tout comme regarder quelqu'un prendre une douche sans son consentement peut être considéré comme une violation de la vie privée de cette personne, collecter des informations sensibles - et se rappeler combien il est difficile de décider ce qui est sensible - sans le consentement crée des problèmes potentiels de confidentialité. Je reviens aux questions sur la vie privée au chapitre 6.
En conclusion, les grandes sources de données, telles que les documents administratifs gouvernementaux et administratifs, ne sont généralement pas créées à des fins de recherche sociale. Les grandes sources de données d'aujourd'hui, et probablement de demain, ont tendance à avoir 10 caractéristiques. La plupart des biens qui sont généralement considérés comme bons pour la recherche - grands, toujours actifs et non réactifs - proviennent du fait qu'à l'ère numérique, les entreprises et les gouvernements peuvent collecter des données à une échelle qui n'était pas possible auparavant. Et bon nombre des propriétés généralement considérées comme mauvaises pour la recherche - incomplètes, inaccessibles, non représentatives, dérivantes, algorithmiquement confondues, inaccessibles, sales et sensibles - proviennent du fait que ces données n'ont pas été collectées par les chercheurs pour les chercheurs. Jusqu'à présent, j'ai parlé de données sur le gouvernement et les entreprises, mais il y a quelques différences entre les deux. D'après mon expérience, les données du gouvernement ont tendance à être moins représentatives, moins confuses sur le plan algorithmique et moins dérivantes. D'un autre côté, les dossiers administratifs des entreprises tendent à être toujours plus actifs. Comprendre ces 10 caractéristiques générales est une première étape utile pour apprendre des sources de données volumineuses. Et maintenant, nous nous tournons vers les stratégies de recherche que nous pouvons utiliser avec ces données.