Les données détenues par les entreprises et les gouvernements sont difficiles pour les chercheurs d'accéder.
En mai 2014, le Programme national de sécurité des États-Unis a ouvert un centre de données dans l'Utah rural qui a un nom bizarre, l'Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Toutefois, ce centre de données, qui est venu à être connu comme le Data Center de l'Utah, est signalé à avoir des capacités étonnantes. Un rapport allègue que le Data Center Utah est capable de stocker et de traiter toutes les formes de communication, y compris "le contenu complet des e-mails privés, des appels de téléphone cellulaire, et les recherches Google, ainsi que toutes sortes de données personnelles reçus sentiers de stationnement, itinéraires de voyage , les achats de la librairie, et d' autres `portée numérique de poche» (Bamford 2012) . Outre les soulevant des inquiétudes sur la nature sensible de la plupart des informations capturées dans les grandes données, qui sera décrit plus loin, le Data Center Utah est un exemple extrême d'une source de données riche qui est inaccessible aux chercheurs. Plus généralement, de nombreuses sources de données volumineuses qui seraient utiles aux chercheurs sont contrôlés et limités par les gouvernements (par exemple, les données fiscales et données sur l'éducation) et les entreprises (par exemple, les requêtes aux moteurs et aux appels téléphoniques méta-données de recherche). Par conséquent, ces données ne seront pas immédiatement disponibles pour les chercheurs dans les universités, et la plupart ne seront même pas à la disposition des chercheurs des gouvernements ou des entreprises.
Dans mon expérience, de nombreux chercheurs basés dans les universités comprennent mal la source de cette inaccessibilité. Ces données ne sont pas inaccessibles parce que les gens dans les entreprises et les gouvernements sont stupides, paresseux, ou indifférent. Au contraire, il y a de graves juridiques, techniques, commerciaux, et les barrières éthiques qui empêchent l'accès aux données. Par exemple, certains accords termes de service pour les sites Web ne permettent aux données d'être utilisés par les employés ou pour améliorer le service. Ainsi, certaines formes de partage des données pourraient exposer les entreprises à des poursuites légitimes des clients. Il existe également des risques commerciaux importants pour les entreprises impliquées dans le partage de données. Essayez d'imaginer comment le public réagirait si les données de recherche personnelle accidentellement divulgué à partir de Google dans le cadre d'un projet de recherche universitaire. Une telle violation de données, si extrême, pourrait même être un risque existentiel pour l'entreprise. Donc Google et la plupart des grandes entreprises sont-aversion au risque sur le partage de données avec des chercheurs très.
En fait, presque tout le monde qui est en mesure de fournir un accès à de grandes quantités de données connaît l'histoire de Abdur Chowdhury. En 2006, quand il était à la tête de la recherche AOL, il a publié volontairement ce qu'il pensait étaient anonymisées requêtes de recherche à partir de 650.000 utilisateurs d'AOL à la communauté des chercheurs. Pour autant que je peux dire, Chowdhury et les chercheurs de AOL avaient de bonnes intentions et ils pensaient qu'ils avaient anonymisées les données. Mais, ils ont eu tort. Il a été rapidement découvert que les données ne sont pas aussi anonyme que les chercheurs pensaient, et les journalistes du New York Times ont pu identifier les personnes dans l'ensemble de données avec facilité (Barbaro and Zeller Jr 2006) . Une fois que ces problèmes ont été découverts, Chowdhury a supprimé les données du site web d'AOL, mais il était trop tard. Les données ont été republié sur d'autres sites, et il sera probablement encore disponible lorsque vous lisez ce livre. En raison de sa tentative de partager des données avec la communauté des chercheurs, Chowdhury a été congédié, et directeur de la technologie d'AOL a démissionné (Hafner 2006) . Comme le montre cet exemple, les avantages pour les individus spécifiques à l'intérieur des entreprises pour faciliter l'accès aux données sont assez petites et le pire scénario est horrible.
La recherche peut, cependant, avoir accès à des données qui sont inaccessibles au grand public. Les gouvernements ont des procédures que les chercheurs peuvent suivre pour demander l'accès, et que les exemples plus loin dans ce chapitre montrent, les chercheurs peuvent parfois avoir accès aux données de l'entreprise. Par exemple, Einav et al. (2015) en partenariat avec un chercheur à eBay pour étudier les traces numériques de ventes aux enchères en ligne. Je vais parler plus sur la recherche qui est venue de cette collaboration plus loin dans le chapitre (section 2.4.3.2), mais je le mentionner maintenant, car il avait tous les quatre des ingrédients que je vois dans des partenariats fructueux: l'intérêt des chercheurs, la capacité des chercheurs, l'intérêt de l'entreprise, et la capacité de l'entreprise. En d'autres termes, Einav et ses collègues se sont intéressés et capables d'étudier des ventes aux enchères en ligne. Et, eBay a également été. Cependant, j'ai vu beaucoup de collaboration possible échouent parce que soit le chercheur ou l'entreprise manquait un de ces ingrédients.
Même si vous êtes en mesure de développer un partenariat avec une entreprise, cependant, il y a quelques inconvénients pour vous. Tout d'abord, les questions que vous pouvez demander les données avec probablement limité; les entreprises sont peu susceptibles de permettre la recherche qui pourrait faire mal paraître. Deuxièmement, vous ne serez probablement pas en mesure de partager vos données avec d'autres chercheurs, ce qui signifie que d'autres chercheurs ne seront pas en mesure de vérifier et d'étendre vos résultats. En outre, ces partenariats peuvent créer au moins l'apparence d'un conflit d'intérêts, où les gens pourraient penser que vos résultats ont été influencés par vos partenariats. Tous ces inconvénients peuvent être résolus, mais il est important d'être clair que le travail avec des données qui ne sont pas accessibles à tout le monde avait à la fois positifs et négatifs.
En résumé, beaucoup de grandes données sont inaccessibles aux chercheurs. Il y a de graves juridiques, techniques, commerciaux, et les barrières éthiques qui empêchent l'accès aux données, et ces obstacles ne vont pas disparaître. Les gouvernements nationaux ont généralement établi des procédures pour permettre l'accès aux données, mais le processus peut être plus ad hoc au niveau des États et locaux. En outre, dans certains cas, les chercheurs peuvent collaborer avec les entreprises pour obtenir l'accès aux données, mais cela peut créer une variété de problèmes pour les chercheurs.