Les données détenues par les entreprises et les gouvernements sont difficiles d'accès pour les chercheurs.
En mai 2014, la National Security Agency des États-Unis a ouvert un centre de données dans les régions rurales de l'Utah sous un nom bizarre, le centre de données de la National Cybersecurity Initiative de la communauté du renseignement. Cependant, ce centre de données, connu sous le nom de Utah Data Center, aurait des capacités étonnantes. Un rapport affirme qu'il est capable de stocker et de traiter toutes les formes de communication, y compris "le contenu complet des courriels privés, des appels téléphoniques et des recherches Google, ainsi que toutes sortes de données personnelles: reçus de stationnement, itinéraires de voyage, achats en librairie et d'autres «déchets de poche» numériques » (Bamford 2012) . En plus de susciter des inquiétudes quant à la nature sensible de la plupart des informations capturées dans les données volumineuses, qui seront décrites plus loin, le Utah Data Center est un exemple extrême d'une riche source de données inaccessible aux chercheurs. Plus généralement, de nombreuses sources de données massives qui seraient utiles sont contrôlées et limitées par les gouvernements (par exemple, les données fiscales et les données éducatives) ou les entreprises (par exemple, les requêtes aux moteurs de recherche et les métadonnées téléphoniques). Par conséquent, même si ces sources de données existent, elles sont inutiles aux fins de la recherche sociale parce qu'elles sont inaccessibles.
Selon mon expérience, de nombreux chercheurs basés dans les universités comprennent mal la source de cette inaccessibilité. Ces données sont inaccessibles non pas parce que les gens dans les entreprises et les gouvernements sont stupides, paresseux ou indifférents. Il existe plutôt de sérieux obstacles juridiques, commerciaux et éthiques qui empêchent l'accès aux données. Par exemple, certains accords sur les conditions d'utilisation des sites Web autorisent uniquement l'utilisation de données par les employés ou l'amélioration du service. Ainsi, certaines formes de partage de données pourraient exposer les entreprises à des poursuites légitimes des clients. Il existe également des risques commerciaux importants pour les entreprises impliquées dans le partage de données. Essayez d'imaginer comment le public réagirait si des données de recherche personnelles étaient divulguées accidentellement par Google dans le cadre d'un projet de recherche universitaire. Une telle violation de données, si extrême, pourrait même être un risque existentiel pour l'entreprise. Donc Google - et la plupart des grandes entreprises - sont très réticents au risque de partager des données avec les chercheurs.
En fait, presque tous ceux qui sont en mesure de donner accès à de grandes quantités de données connaissent l'histoire d'Abdur Chowdhury. En 2006, alors qu'il était responsable de la recherche chez AOL, il a intentionnellement communiqué à la communauté des chercheurs ce qu'il pensait être des requêtes de recherche anonymisées de la part de 650 000 utilisateurs d'AOL. Pour autant que je sache, Chowdhury et les chercheurs d'AOL avaient de bonnes intentions, et ils pensaient avoir anonymisé les données. Mais ils avaient tort. On a rapidement découvert que les données n'étaient pas aussi anonymes que les chercheurs le pensaient, et les journalistes du New York Times ont pu identifier facilement quelqu'un dans l'ensemble de données (Barbaro and Zeller 2006) . Une fois ces problèmes détectés, Chowdhury a supprimé les données du site Web d'AOL, mais il était trop tard. Les données ont été reprises sur d'autres sites Web et seront probablement encore disponibles lorsque vous lirez ce livre. Chowdhury a été renvoyé et le directeur de la technologie d'AOL a démissionné (Hafner 2006) . Comme le montre cet exemple, les avantages pour les individus spécifiques au sein des entreprises de faciliter l'accès aux données sont assez faibles et le pire des cas est terrible.
Les chercheurs peuvent cependant parfois accéder à des données inaccessibles au grand public. Certains gouvernements ont des procédures que les chercheurs peuvent suivre pour demander l'accès, et comme le montrent les exemples présentés plus loin dans ce chapitre, les chercheurs peuvent occasionnellement accéder aux données de l'entreprise. Par exemple, Einav et al. (2015) s'est associé à un chercheur d'eBay pour étudier les enchères en ligne. Je parlerai plus longuement de la recherche qui a découlé de cette collaboration plus tard dans le chapitre, mais je le mentionne maintenant parce qu'il contient les quatre ingrédients que je vois dans les partenariats fructueux: intérêt des chercheurs, capacités des chercheurs, intérêt des entreprises et capacité de l'entreprise . J'ai vu beaucoup de collaborations potentielles échouer parce que le chercheur ou le partenaire - qu'il s'agisse d'une entreprise ou du gouvernement - manquait d'un de ces ingrédients.
Même si vous êtes en mesure de développer un partenariat avec une entreprise ou d'avoir accès à des données gouvernementales limitées, cependant, il y a quelques inconvénients pour vous. Premièrement, vous ne pourrez probablement pas partager vos données avec d'autres chercheurs, ce qui signifie que d'autres chercheurs ne pourront pas vérifier et étendre vos résultats. Deuxièmement, les questions que vous pouvez poser peuvent être limitées; les entreprises sont peu susceptibles de permettre des recherches qui pourraient leur donner une mauvaise image. Enfin, ces partenariats peuvent créer au moins l'apparence d'un conflit d'intérêts, où les gens pourraient penser que vos résultats ont été influencés par vos partenariats. Tous ces inconvénients peuvent être résolus, mais il est important d'être clair que travailler avec des données qui ne sont pas accessibles à tous a des avantages et des inconvénients.
En résumé, beaucoup de données volumineuses sont inaccessibles aux chercheurs. Il existe de sérieux obstacles juridiques, commerciaux et éthiques qui empêchent l'accès aux données, et ces obstacles ne disparaîtront pas à mesure que la technologie s'améliorera parce qu'ils ne constituent pas des obstacles techniques. Certains gouvernements nationaux ont établi des procédures pour permettre l'accès aux données pour certains ensembles de données, mais le processus est particulièrement ad hoc aux niveaux national et local. De plus, dans certains cas, les chercheurs peuvent établir des partenariats avec des entreprises pour obtenir l'accès aux données, mais cela peut créer divers problèmes pour les chercheurs et les entreprises.