Dados mantidos por empresas e governos são de difícil acesso para pesquisadores.
Em maio de 2014, a Agência de Segurança Nacional dos EUA abriu um centro de dados na área rural de Utah com um nome inábil, o Centro de Dados da Iniciativa Nacional de Segurança Cibernética da Comunidade de Inteligência. No entanto, esse data center, que passou a ser conhecido como o Utah Data Center, é relatado como tendo recursos impressionantes. Um relatório alega que é capaz de armazenar e processar todas as formas de comunicação, incluindo “o conteúdo completo de e-mails privados, telefonemas e pesquisas do Google, bem como todos os tipos de dados pessoais - recibos de estacionamento, itinerários de viagem, compras em livrarias e outro 'lixo de bolso' digital ” (Bamford 2012) . Além de levantar preocupações sobre a natureza sensível de grande parte das informações capturadas em big data, que serão descritas mais adiante, o Utah Data Center é um exemplo extremo de uma rica fonte de dados que é inacessível aos pesquisadores. Em geral, muitas fontes de big data que seriam úteis são controladas e restritas por governos (por exemplo, dados fiscais e dados educacionais) ou empresas (por exemplo, consultas a mecanismos de pesquisa e meta-dados de chamadas telefônicas). Portanto, mesmo que essas fontes de dados existam, elas são inúteis para fins de pesquisa social porque são inacessíveis.
Na minha experiência, muitos pesquisadores baseados em universidades não entendem a origem dessa inacessibilidade. Esses dados são inacessíveis não porque as pessoas em empresas e governos são estúpidos, preguiçosos ou indiferentes. Em vez disso, existem barreiras legais, comerciais e éticas que impedem o acesso a dados. Por exemplo, alguns acordos de termos de serviço para sites só permitem que os dados sejam usados por funcionários ou para melhorar o serviço. Assim, certas formas de compartilhamento de dados podem expor as empresas a processos judiciais legítimos de clientes. Há também riscos substanciais para as empresas envolvidas no compartilhamento de dados. Tente imaginar como o público responderia se os dados de pesquisa pessoais vazassem acidentalmente do Google como parte de um projeto de pesquisa da universidade. Tal violação de dados, se extrema, pode até ser um risco existencial para a empresa. Portanto, o Google - e a maioria das grandes empresas - é muito avesso ao risco de compartilhar dados com pesquisadores.
Na verdade, quase todos que estão em condições de fornecer acesso a grandes quantidades de dados conhecem a história de Abdur Chowdhury. Em 2006, quando ele era o chefe de pesquisa da AOL, ele divulgou intencionalmente à comunidade de pesquisa o que ele achava que eram consultas de pesquisa anônimas de 650.000 usuários da AOL. Tanto quanto eu posso dizer, Chowdhury e os pesquisadores da AOL tinham boas intenções, e eles pensaram que eles tinham anonimizado os dados. Mas eles estavam errados. Foi rapidamente descoberto que os dados não eram tão anônimos quanto os pesquisadores pensavam, e os repórteres do New York Times puderam identificar alguém no conjunto de dados com facilidade (Barbaro and Zeller 2006) . Uma vez que esses problemas foram descobertos, Chowdhury removeu os dados do site da AOL, mas já era tarde demais. Os dados foram republicados em outros sites, e provavelmente ainda estarão disponíveis quando você estiver lendo este livro. Chowdhury foi demitido e o diretor de tecnologia da AOL renunciou (Hafner 2006) . Como mostra este exemplo, os benefícios para indivíduos específicos dentro das empresas para facilitar o acesso a dados são muito pequenos e o pior cenário é terrível.
Os pesquisadores podem, no entanto, algumas vezes obter acesso a dados inacessíveis ao público em geral. Alguns governos têm procedimentos que os pesquisadores podem seguir para se candidatarem ao acesso, e, como mostram os exemplos mais adiante neste capítulo, os pesquisadores podem ocasionalmente obter acesso a dados corporativos. Por exemplo, Einav et al. (2015) fez parceria com um pesquisador do eBay para estudar leilões online. Falarei mais sobre a pesquisa que resultou dessa colaboração mais adiante no capítulo, mas menciono isso agora porque tinha todos os quatro ingredientes que vejo em parcerias bem-sucedidas: interesse do pesquisador, capacidade do pesquisador, interesse da empresa e capacidade da empresa. . Já vi muitas colaborações em potencial falharem porque o pesquisador ou o parceiro - seja uma empresa ou governo - não tinha um desses ingredientes.
Mesmo se você for capaz de desenvolver uma parceria com uma empresa ou obter acesso a dados governamentais restritos, no entanto, existem algumas desvantagens para você. Primeiro, você provavelmente não poderá compartilhar seus dados com outros pesquisadores, o que significa que outros pesquisadores não poderão verificar e ampliar seus resultados. Em segundo lugar, as perguntas que você pode fazer podem ser limitadas; É improvável que as empresas permitam pesquisas que possam fazê-las parecer ruins. Por fim, essas parcerias podem criar pelo menos a aparência de um conflito de interesses, em que as pessoas podem pensar que seus resultados foram influenciados por suas parcerias. Todas essas desvantagens podem ser solucionadas, mas é importante deixar claro que trabalhar com dados que não são acessíveis a todos tem vantagens e desvantagens.
Em resumo, muitos dados grandes são inacessíveis aos pesquisadores. Existem barreiras legais, comerciais e éticas que impedem o acesso a dados, e essas barreiras não desaparecerão à medida que a tecnologia melhora, porque não são barreiras técnicas. Alguns governos nacionais estabeleceram procedimentos para permitir o acesso a dados para alguns conjuntos de dados, mas o processo é especialmente ad hoc nos níveis estadual e local. Além disso, em alguns casos, os pesquisadores podem fazer parcerias com empresas para obter acesso a dados, mas isso pode criar uma variedade de problemas para pesquisadores e empresas.