Datos mantidos por empresas e gobernos están difícil para os investigadores acceder.
En maio de 2014, a Axenda de Seguridade Nacional dos Estados Unidos abriu un centro de datos en Utah rural que ten un nome estraño, a Intelixencia Comunidade Comprehensive National Cybersecurity Initiative Data Center. Con todo, este centro de datos, o que veu a ser coñecido como o Data Center Utah, é informar para ter capacidades sorprendentes. Un informe asegura que o Data Center Utah é capaz de almacenar e procesar todas as formas de comunicación, incluíndo "o contido completo de correo-e privados, chamadas de teléfono móbil, e investigacións de Google, así como todo tipo de información persoal recibos rutas de aparcamento, itinerarios de viaxe , as compras da libraría, e outros medios dixitais `lixo peto '" (Bamford 2012) . Ademais das preocupacións sensibilización sobre a natureza sensible de moita da información capturada en big data que será descrito máis abaixo, o Data Center Utah é un exemplo extremo de unha rica fonte de datos que está inaccesible para os investigadores. En termos máis xerais, moitas fontes de datos grandes que serían útiles para os investigadores son controladas e restrinxidas polos gobernos (por exemplo, datos fiscais e datos educativos) e empresas (por exemplo, as consultas aos motores e chamada metadatos de investigación). Polo tanto, estes datos non serán inmediatamente dispoñible para investigadores en universidades, ea maioría non vai mesmo estar dispoñible para investigadores dos gobernos ou empresas.
Na miña experiencia, moitos investigadores baseados en universidades non comprenden a fonte desta inacessibilidade. Estes datos non son inaccesibles porque a xente en empresas e gobernos son estúpidos, preguiceiro ou indiferente. Pola contra, hai serias xurídico, técnico, comercial e barreiras éticas que impiden o acceso de datos. Por exemplo, algúns acordos de termos de servizo para sitios só permiten que os datos sexan utilizados por funcionarios ou para mellorar o servizo. Así, certas formas de compartir datos podería expoñer as empresas a accións lexítimas de clientes. Tamén riscos comerciais substanciais para as empresas implicadas na posta en común de datos. Probe imaxinar como o público reaccionaría se datos de investigación persoal accidentalmente filtrou Google como parte dun proxecto de investigación da universidade. Tal violación de datos, se extremo, pode ata ser un risco existencial para a empresa. Entón, Google ea maioría das grandes empresas son moi avessos ao risco sobre a repartición de datos con investigadores.
En realidade, case todo o mundo que está nunha posición para proporcionar acceso a grandes cantidades de datos coñece a historia da Abdur Chowdhury. En 2006, cando era o xefe de investigación AOL, el intencionalmente lanzado o que el pensaba foron anónimos consultas de investigación de 650.000 usuarios de AOL para a comunidade de investigación. Tanto como podo dicir, Chowdhury e os investigadores de AOL tiña boas intencións e pensaron que tiñan anónimos os datos. Pero eles estaban errados. Descubriuse rapidamente que os datos non foron tan anónimo como os investigadores pensaron, e reporteiros do New York Estafes foron capaces de identificar as persoas no conxunto de datos facilmente (Barbaro and Zeller Jr 2006) . Xa que estes problemas foron descubertos, Chowdhury eliminado os datos do sitio web de AOL, pero xa era demasiado tarde. Os datos foron republicados noutros sitios, e probablemente aínda estar dispoñible cando está lendo este libro. Por mor da súa tentativa de compartir datos coa comunidade científica, Chowdhury foi despedido, e director de tecnoloxía de AOL dimitiu (Hafner 2006) . Como mostra este exemplo, os beneficios para individuos específicos dentro das empresas para facilitar o acceso de datos son moi pequenos eo peor escenario é terrible.
A investigación pode, con todo, ter acceso a datos que é inaccesible ao público en xeral. Os gobernos teñen procedementos que os investigadores poidan seguir para solicitar o acceso, e como os exemplos máis adiante neste capítulo concerto, os investigadores poden, en ocasións, ter acceso a datos corporativos. Por exemplo, Einav et al. (2015) en colaboración con un investigador da eBay para estudar os vestixios dixitais de poxas en liña. Vou falar máis sobre a investigación que veu a partir desta colaboración máis adiante neste capítulo (Sección 2.4.3.2), pero eu mencionalo-lo agora, porque tiña os catro ingredientes que eu vexo en asociacións de éxito: interese investigador, capacidade de investigador, interese da empresa e capacidade de empresa. Noutras palabras, Einav e os seus compañeiros estaban interesados en e capaz de estudar poxas en liña. E, eBay tamén foi. Con todo, teño visto moitos posible colaboración falla porque tanto o investigador ou empresa non tiña un deses ingredientes.
Mesmo se vostede é capaz de desenvolver unha colaboración con unha empresa, con todo, hai algunhas desvantaxes para ti. En primeiro lugar, as preguntas que pode preguntar cos datos con probable ser limitada; empresas non son susceptibles de permitir a investigación que podería tornalos estar mal. En segundo lugar, probablemente non será capaz de compartir os seus datos con outros investigadores, o que significa que outros investigadores non poderá comprobar e ampliar os seus resultados. Ademais, estas asociacións poden crear polo menos a aparencia dun conflito de intereses, onde as persoas poden pensar que os resultados foron influenciados polas súas asociacións. Todas estas desvantaxes poden ser abordados, pero é importante ser claro que traballar con datos que non é accesible a todos tiveron ambos os pros e os contras.
En resumo, os lotes de gran datos inaccesibles aos investigadores. Existen graves xurídico, técnico, comercial e barreiras éticas que impiden o acceso de datos e estas barreiras non vai. Os gobernos nacionais teñen, xeralmente, estableceu procedementos para permitir o acceso aos datos, pero o proceso pode ser máis ad hoc nos niveis estatais e locais. Ademais, nalgúns casos, os investigadores poden asociacións con empresas para acceder a datos, pero iso pode crear unha variedade de problemas para os investigadores.