Algumas das informações que as empresas e os governos têm é sensível.
Empresas de seguro de saúde têm informações detalhadas sobre os cuidados médicos recebidos por seus clientes. Essa informação poderia ser usada para pesquisas importantes sobre saúde, mas se ela se tornasse pública, poderia levar a danos emocionais (por exemplo, constrangimento) ou danos econômicos (por exemplo, perda de emprego). Muitas outras fontes de dados grandes também têm informações que são confidenciais , o que é parte do motivo pelo qual elas geralmente são inacessíveis.
Infelizmente, acaba por ser bastante complicado decidir qual informação é realmente sensível (Ohm 2015) , como foi ilustrado pelo Prêmio Netflix. Como descreverei no capítulo 5, em 2006 a Netflix lançou 100 milhões de classificações de filmes de quase 500.000 membros e teve uma chamada aberta onde pessoas de todo o mundo enviaram algoritmos que poderiam melhorar a capacidade da Netflix de recomendar filmes. Antes de liberar os dados, a Netflix removeu qualquer informação óbvia de identificação pessoal, como nomes. Mas, apenas duas semanas após os dados serem divulgados, Arvind Narayanan e Vitaly Shmatikov (2008) mostraram que era possível aprender sobre classificações de filmes de pessoas específicas usando um truque que eu mostrarei no capítulo 6. Mesmo que um invasor possa descobrir um classificações de filmes de uma pessoa, ainda não parece haver nada sensível aqui. Embora isso possa ser verdade em geral, para pelo menos algumas das 500 mil pessoas no conjunto de dados, as classificações de filmes eram confidenciais. De fato, em resposta à divulgação e re-identificação dos dados, uma mulher lésbica que estava no armário se juntou a uma ação coletiva contra a Netflix. Veja como o problema foi expresso neste processo (Singel 2009) :
“[M] ovie e rating data contém informação de uma… natureza altamente pessoal e sensível. Os dados do filme dos membros expõem o interesse pessoal de um membro do Netflix e / ou lida com vários assuntos altamente pessoais, incluindo sexualidade, doença mental, recuperação do alcoolismo e vitimização por incesto, abuso físico, violência doméstica, adultério e estupro ”.
Este exemplo mostra que pode haver informações que algumas pessoas consideram confidenciais dentro do que pode parecer ser um banco de dados benigno. Além disso, mostra que uma defesa principal que os pesquisadores empregam para proteger dados sensíveis - de identificação - pode falhar de formas surpreendentes. Essas duas idéias são desenvolvidas em maior detalhe no capítulo 6.
A última coisa a ter em mente sobre os dados sensíveis é que coletá-los sem o consentimento das pessoas levanta questões éticas, mesmo que nenhum dano específico seja causado. Assim como assistir alguém tomando banho sem o seu consentimento pode ser considerado uma violação da privacidade dessa pessoa, coletando informações confidenciais - e lembre-se de quão difícil pode ser decidir o que é sensível - sem o consentimento cria possíveis preocupações com a privacidade. Voltarei a perguntas sobre privacidade no capítulo 6.
Em conclusão, grandes fontes de dados, como registros administrativos governamentais e comerciais, geralmente não são criadas para fins de pesquisa social. As grandes fontes de dados de hoje, e provavelmente amanhã, tendem a ter 10 características. Muitas das propriedades que geralmente são consideradas boas para pesquisa - grandes, sempre ativas e não-reativas - vêm do fato de que, na era digital, empresas e governos são capazes de coletar dados em uma escala que não era possível anteriormente. E muitas das propriedades que são geralmente consideradas ruins para a pesquisa - incompletas, inacessíveis, não representativas, flutuantes, confundidas por algoritmos, inacessíveis, sujas e sensíveis - vêm do fato de que esses dados não foram coletados por pesquisadores para pesquisadores. Até agora, falei sobre dados governamentais e de negócios juntos, mas há algumas diferenças entre os dois. Na minha experiência, os dados do governo tendem a ser menos não representativos, menos confundidos por algoritmos e menos flutuantes. Por outro lado, os registros administrativos de negócios tendem a ser mais constantes. Entender essas 10 características gerais é um primeiro passo útil para aprender com fontes de big data. E agora nos voltamos para as estratégias de pesquisa que podemos usar com esses dados.