Dados mantidos por empresas e governos estão difícil para os pesquisadores acessar.
Em maio de 2014, a Agenda de Segurança Nacional dos Estados Unidos abriu um centro de dados em Utah rural que tem um nome estranho, a Inteligência Comunidade Comprehensive National Cybersecurity Initiative Data Center. No entanto, este centro de dados, o que veio a ser conhecido como o Data Center Utah, é relatado para ter capacidades surpreendentes. Um relatório alega que o Data Center Utah é capaz de armazenar e processar todas as formas de comunicação, incluindo "o conteúdo completo de e-mails privados, chamadas de telefone celular, e pesquisas do Google, bem como todos os tipos de dados pessoais recibos trilhas de estacionamento, itinerários de viagem , as compras da livraria, e outros meios digitais `lixo bolso '" (Bamford 2012) . Além das preocupações sensibilização sobre a natureza sensível de muita da informação capturada em big data, que será descrito mais abaixo, o Data Center Utah é um exemplo extremo de uma rica fonte de dados que está inacessível para os pesquisadores. Em termos mais gerais, muitas fontes de dados grandes que seriam úteis para os pesquisadores são controladas e restritas pelos governos (por exemplo, dados fiscais e dados educacionais) e empresas (por exemplo, as consultas aos motores e telefonema meta-dados de pesquisa). Portanto, estes dados não será imediatamente disponível para pesquisadores em universidades, ea maioria não vai mesmo estar disponível para pesquisadores dos governos ou empresas.
Na minha experiência, muitos pesquisadores baseados em universidades não compreendem a fonte desta inacessibilidade. Estes dados não são inacessíveis porque as pessoas em empresas e governos são estúpidos, preguiçoso ou indiferente. Em vez disso, há sérias jurídico, técnico, comercial e barreiras éticas que impedem o acesso de dados. Por exemplo, alguns acordos de termos de serviço para sites só permitem que os dados sejam utilizados por funcionários ou para melhorar o serviço. Assim, certas formas de compartilhamento de dados poderia expor as empresas a ações legítimas de clientes. Há também riscos comerciais substanciais para as empresas envolvidas na partilha de dados. Tente imaginar como o público reagiria se dados de pesquisa pessoais acidentalmente vazou do Google como parte de um projeto de pesquisa da universidade. Tal violação de dados, se extremo, pode até ser um risco existencial para a empresa. Então, o Google e a maioria das grandes empresas-são muito avessos ao risco sobre o compartilhamento de dados com pesquisadores.
Na verdade, quase todo mundo que está em uma posição para fornecer acesso a grandes quantidades de dados conhece a história da Abdur Chowdhury. Em 2006, quando ele era o chefe de pesquisa AOL, ele intencionalmente lançado o que ele pensava foram anónimos consultas de pesquisa de 650.000 usuários da AOL para a comunidade de pesquisa. Tanto quanto eu posso dizer, Chowdhury e os pesquisadores da AOL tinha boas intenções e eles pensaram que tinham anónimos os dados. Mas, eles estavam errados. Descobriu-se rapidamente que os dados não foram tão anônima como os pesquisadores pensaram, e repórteres do New York Times foram capazes de identificar as pessoas no conjunto de dados com facilidade (Barbaro and Zeller Jr 2006) . Uma vez que estes problemas foram descobertos, Chowdhury removido os dados do site da AOL, mas já era tarde demais. Os dados foram republicados em outros sites, e provavelmente ainda estar disponível quando você está lendo este livro. Por causa de sua tentativa de compartilhar dados com a comunidade científica, Chowdhury foi demitido, e diretor de tecnologia da AOL demitiu (Hafner 2006) . Como mostra este exemplo, os benefícios para indivíduos específicos dentro das empresas para facilitar o acesso de dados são muito pequenos eo pior cenário é terrível.
A pesquisa pode, no entanto, ter acesso a dados que é inacessível ao público em geral. Os governos têm procedimentos que os investigadores possam seguir para solicitar o acesso, e como os exemplos mais adiante neste capítulo show, os pesquisadores podem, ocasionalmente, ter acesso a dados corporativos. Por exemplo, Einav et al. (2015) em parceria com um pesquisador da eBay para estudar os vestígios digitais de leilões on-line. Vou falar mais sobre a pesquisa que veio a partir desta colaboração mais adiante neste capítulo (Seção 2.4.3.2), mas eu mencioná-lo agora, porque ele tinha todos os quatro ingredientes que eu vejo em parcerias de sucesso: interesse pesquisador, capacidade de pesquisador, interesse da empresa e capacidade de empresa. Em outras palavras, Einav e seus colegas estavam interessados em e capaz de estudar leilões online. E, eBay também foi. No entanto, tenho visto muitos possível colaboração falhar porque tanto o pesquisador ou empresa não tinha um desses ingredientes.
Mesmo se você é capaz de desenvolver uma parceria com uma empresa, no entanto, existem algumas desvantagens para você. Em primeiro lugar, as perguntas que você pode perguntar com os dados com provável ser limitada; empresas não são susceptíveis de permitir a investigação que poderia torná-los ficar mal. Em segundo lugar, você provavelmente não será capaz de compartilhar seus dados com outros pesquisadores, o que significa que outros pesquisadores não será capaz de verificar e ampliar seus resultados. Além disso, essas parcerias podem criar pelo menos a aparência de um conflito de interesses, onde as pessoas podem pensar que os resultados foram influenciados por suas parcerias. Todas estas desvantagens podem ser abordados, mas é importante ser claro que trabalhar com dados que não é acessível a todos tiveram ambos os prós e os contras.
Em resumo, os lotes de grande dados são inacessíveis aos pesquisadores. Existem graves jurídico, técnico, comercial e barreiras éticas que impedem o acesso de dados e estas barreiras não vai embora. Os governos nacionais têm, geralmente, estabeleceu procedimentos para permitir o acesso aos dados, mas o processo pode ser mais ad hoc nos níveis estaduais e locais. Além disso, em alguns casos, os pesquisadores podem parcerias com empresas para obter acesso a dados, mas isso pode criar uma variedade de problemas para os investigadores.