Les dades de les empreses i els governs són difícils d'accedir als investigadors.
El maig de 2014, l'Agència de Seguretat Nacional dels Estats Units va obrir un centre de dades a Utah rural amb un nom incòmode, el Centre de Dades de la Iniciativa Nacional Integral de Ciberseguretat de la Comunitat d'Intel·ligència. Tanmateix, aquest centre de dades, que ha estat conegut com el Centre de dades d'Utah, ha tingut funcions sorprenents. Un informe al·lega que és capaç d'emmagatzemar i processar totes les formes de comunicació, incloent-hi "el contingut complet dels correus electrònics privats, trucades telefòniques i cerques a Google, així com tot tipus de rutes de dades personals-recàrrecs d'estacionament, itineraris de viatge, compres de llibreries , i altres "escombraries de butxaca" digitals " (Bamford 2012) . A més de plantejar preocupacions sobre la naturalesa sensible de gran part de la informació que es captura en grans dades, que es descriu a continuació, el Centre de dades de Utah és un exemple extrem d'una font de dades enriquida que és inaccessible per als investigadors. Més generalment, moltes fonts de grans dades que serien útils són controlades i restringides pels governs (p. Ex., Dades fiscals i dades educatives) o empreses (per exemple, consultes als motors de cerca i meta-dades de trucades telefòniques). Per tant, tot i que aquestes fonts de dades existeixen, són inútils per als propòsits de la recerca social perquè són inaccessibles.
En la meva experiència, molts investigadors basats en universitats no comprenen l'origen d'aquesta inaccessibilitat. Aquestes dades són inaccessibles no perquè les persones a les empreses i els governs siguin estúpides, pregurades o poc freqüents. Al contrari, hi ha greus barreres legals, empresarials i ètiques que impedeixen l'accés a les dades. Per exemple, alguns acords de termes de servei per a llocs web només permeten que els empleats utilitzin dades o que millori el servei. Així doncs, certes formes d'intercanvi de dades podrien exposar les empreses a legítims demandes dels clients. També hi ha riscos empresarials importants per a les empreses que participen en l'intercanvi de dades. Intenta imaginar com respondria el públic si les dades de cerca personal accidentalment es van filtrar de Google com a part d'un projecte de recerca universitària. Aquesta infracció de dades, si és extrema, podria ser fins i tot un risc existencial per a l'empresa. Així doncs, Google i les empreses més grans-tenen molta aversió al risc de compartir dades amb els investigadors.
De fet, gairebé tots els que estan en condicions d'accedir a grans quantitats de dades coneixen la història d'Abdur Chowdhury. El 2006, quan era el cap de recerca d'AOL, va llançar intencionadament a la comunitat investigadora el que considerava que eren consultes de cerca anònimes de 650.000 usuaris d'AOL. Pel que jo puc dir, Chowdhury i els investigadors d'AOL tenien bones intencions, i van pensar que havien anonimitzat les dades. Però estaven equivocats. Es va descobrir ràpidament que les dades no eren tan anònimes com pensaven els investigadors, i els periodistes del New York Times van poder identificar algú al conjunt de dades amb facilitat (Barbaro and Zeller 2006) . Una vegada que es van descobrir aquests problemes, Chowdhury va eliminar les dades del lloc web d'AOL, però ja era massa tard. Les dades s'han reenviat a altres llocs web i, probablement, encara estaran disponibles quan llegiu aquest llibre. Chowdhury va ser acomiadat, i va dimitir el cap de tecnologia de AOL (Hafner 2006) . Com es pot veure en aquest exemple, els beneficis per a persones concretes dins de les empreses per facilitar l'accés a dades són bastant petites i el pitjor dels casos és terrible.
Tanmateix, els investigadors poden obtenir accés a dades inaccessibles per al públic en general. Alguns governs tenen procediments que els investigadors poden seguir per demanar accés, i com els exemples més recents d'aquest capítol mostren, els investigadors ocasionalment poden accedir a dades corporatives. Per exemple, Einav et al. (2015) es va associar amb un investigador a eBay per estudiar subhastes en línia. Vaig a parlar més sobre la investigació que va sorgir d'aquesta col·laboració més tard en el capítol, però ara ho menciono perquè tenia els quatre ingredients que veig en associacions reeixides: interès investigador, capacitat d'investigador, interès empresarial i capacitat d'empresa . He vist que moltes col·laboracions potencials fracassen perquè l'investigador o el soci, ja sigui empresa o govern, manquen d'aquests ingredients.
Fins i tot si és capaç de desenvolupar una associació amb un negoci o obtenir accés a dades governamentals restringides, però, hi ha algunes desavantatges per a vostè. En primer lloc, és probable que no pugui compartir dades amb altres investigadors, el que significa que altres investigadors no podran verificar i ampliar els resultats. En segon lloc, les preguntes que podeu demanar poden ser limitades; és poc probable que les empreses permetin una investigació que pugui fer que es vegin malament. Finalment, aquestes associacions poden crear com a mínim l'aparició d'un conflicte d'interessos, on la gent podria pensar que els vostres resultats van ser influïts per les vostres associacions. Totes aquestes desavantatges es poden abordar, però és important tenir clar que treballar amb dades que no és accessible per a tothom té alts i baixos.
En resum, moltes de les grans dades són inaccessibles per als investigadors. Hi ha greus barreres jurídiques, empresarials i ètiques que impedeixen l'accés a les dades, i aquestes barreres no es desmarcaran a mesura que la tecnologia millora perquè no són barreres tècniques. Alguns governs nacionals han establert procediments per permetre l'accés a dades d'alguns conjunts de dades, però el procés és especialment ad hoc a nivell estatal i local. A més, en alguns casos, els investigadors poden associar-se amb empreses per obtenir accés a dades, però això pot generar diversos problemes per als investigadors i empreses.