Les dades en poder de les empreses i els governs són difícils per als investigadors accedir-hi.
Al maig de 2014, el Programa Nacional de Seguretat dels Estats Units va obrir un centre de dades a Utah rural que té un nom rar, la Iniciativa Nacional de Ciberseguretat Centre de Dades d'Intel·ligència Integral Comunitària. No obstant això, aquest centre de dades, que ha arribat a ser conegut com el Centre de Dades d'Utah, s'informa que té capacitats sorprenents. En un informe s'al·lega que el Centre de Dades de Utah és capaç d'emmagatzemar i processar totes les formes de comunicació, com "el contingut complet de correus electrònics privats, trucades de telèfons mòbils, i les recerques de Google, així com tot tipus de dades personals rebuts senders d'aparcament, itineraris de viatge , les compres de llibreria, i una altra digital de butxaca `escombraries '" (Bamford 2012) . A més de les preocupacions sensibilització sobre la naturalesa sensible de gran part de la informació capturada en grans volums de dades, que es descriurà més endavant, el Centre de Dades d'Utah és un exemple extrem d'una rica font de dades que és inaccessible per als investigadors. De manera més general, moltes fonts de dades grans que podrien ser útils per als investigadors són controlats i restringits pels governs (per exemple, dades fiscals i les dades educatius) i les empreses (per exemple, les consultes dels motors i trucada telefònica meta-dades de recerca). Per tant, aquestes dades no estaran immediatament disponibles per als investigadors a les universitats, i la majoria no estaran a disposició dels investigadors en els governs o empreses.
En la meva experiència, molts investigadors basats en les universitats entenen malament la font d'aquesta inaccessibilitat. Aquestes dades no són inaccessibles a causa de les persones en les empreses i els governs són estúpids, mandrosos, o indiferent. Per contra, hi ha seriosos problemes legals, tècnics, de negocis, i les barreres ètiques que impedeixen l'accés de dades. Per exemple, alguns acords termes de servei per als llocs web només permeten que les dades siguin utilitzats pels empleats o per millorar el servei. Així que certes formes de compartir dades podrien exposar a les empreses a les demandes legítimes dels clients. També hi ha riscos substancials de negocis a empreses que participen en l'intercanvi de dades. Intenta imaginar com respondria el públic si les dades personals de recerca va filtrar accidentalment cap a fora de Google com a part d'un projecte de recerca de la universitat. Tal violació de dades, en cas extrem, fins i tot podria ser un risc existencial per a l'empresa. Així que Google i més grans empreses són molt reticents al risc de compartir les dades amb els investigadors.
De fet, gairebé tots els que estan en condicions de proporcionar accés a grans quantitats de dades coneix la història de l'Abdur Chowdhury. El 2006, quan era el cap d'investigació AOL, va llançar intencionadament el que ell pensava que eren anònims consultes de cerca de 650.000 usuaris d'AOL a la comunitat d'investigació. Pel que jo puc dir, Chowdhury i els investigadors d'AOL tenien bones intencions i van pensar que havien anònims les dades. No obstant això, ells estaven equivocats. Es va descobrir ràpidament que les dades no eren tan anònim com pensaven els investigadors i reporters de The New York Times van ser capaços d'identificar les persones en el conjunt de dades amb facilitat (Barbaro and Zeller Jr 2006) . Una vegada que es van descobrir aquests problemes, Chowdhury elimina les dades de la pàgina web d'AOL, però era massa tard. Les dades s'havien tornat a publicar en altres llocs web, i és probable que encara estigui disponible quan vostè està llegint aquest llibre. A causa del seu intent de compartir les dades amb la comunitat científica, Chowdhury va ser acomiadat, i director de tecnologia d'AOL va renunciar (Hafner 2006) . Com a mostra aquest exemple, els beneficis per als individus específics dins de les empreses per facilitar l'accés a les dades són bastant petites i el pitjor dels casos és terrible.
La investigació pot, però, tenir accés a les dades que és inaccessible per al públic en general. Els governs tenen procediments que els investigadors poden seguir per sol·licitar l'accés, i com els exemples més endavant en aquest capítol mostren, en ocasions els investigadors poden tenir accés a les dades corporatius. Per exemple, Einav et al. (2015) es va associar amb un investigador a ebay per estudiar les empremtes digitals de les subhastes en línia. Vaig a parlar més sobre la investigació que va venir d'aquesta col·laboració més endavant en el capítol (Secció 2.4.3.2), però ho esmento ara perquè tenia els quatre ingredients que veig en associacions reeixides: l'interès investigador, la capacitat investigadora, interès de la companyia, i la capacitat de l'empresa. En altres paraules, Einav i els seus col·legues estaven interessats en estudiar i capaç de subhastes en línia. I, eBay va ser també. No obstant això, he vist moltes possibilitats de col·laboració fracassen perquè o bé l'investigador o empresa no comptava amb un d'aquests ingredients.
Fins i tot si vostè és capaç de desenvolupar una associació amb una empresa, però, hi ha alguns desavantatges per a vostè. En primer lloc, les preguntes que vostè pot fer amb les dades amb probable ser limitada; empreses és poc probable que continuï la investigació que podria fer que es vegin malament. En segon lloc, és probable que no sigui capaç de compartir les seves dades amb altres investigadors, el que significa que altres investigadors no van a ser capaços de verificar i ampliar els resultats. A més, aquestes associacions poden crear almenys l'aparença d'un conflicte d'interessos, on la gent podria pensar que els seus resultats van ser influenciats per les seves associacions. Tots aquests inconvenients es poden abordar, però és important tenir clar que el treball amb dades que no són accessibles per a tothom tenia dos avantatges i desavantatges.
En resum, una gran quantitat de dades tan gran és inaccessible per als investigadors. Hi seriosos problemes legals, tècnics, de negocis, i les barreres ètiques que impedeixen l'accés de dades, i aquestes barreres no desapareixeran. Els governs nacionals en general, han establert procediments per habilitar l'accés a dades, però el procés pot ser més ad hoc a nivell estatal i local. A més, en alguns casos, els investigadors poden associar-se amb empreses per accedir a les dades, però això pot crear una varietat de problemes per als investigadors.