Grandes conjuntos de dados são um meio para um fim; eles não são um fim em si.
A característica mais discutida das fontes de big data é que elas são GRANDES. Muitos artigos, por exemplo, começam discutindo - e às vezes se gabando - sobre quantos dados eles analisaram. Por exemplo, um artigo publicado na revista Science estudando tendências de uso de palavras no corpus do Google Books incluiu o seguinte (Michel et al. 2011) :
“Nosso corpus contém mais de 500 bilhões de palavras, em inglês (361 bilhões), francês (45 bilhões), espanhol (45 bilhões), alemão (37 bilhões), chinês (13 bilhões), russo (35 bilhões) e hebraico. (2 bilhões). As obras mais antigas foram publicadas no ano de 1500. As primeiras décadas são representadas por apenas alguns livros por ano, compreendendo várias centenas de milhares de palavras. Em 1800, o corpus cresce para 98 milhões de palavras por ano; em 1900, 1,8 bilhões; e em 2000, 11 bilhões. O corpus não pode ser lido por um humano. Se você tentasse ler apenas entradas em inglês somente a partir do ano 2000, no ritmo razoável de 200 palavras / min, sem interrupções para alimentação ou sono, levaria 80 anos. A sequência de letras é 1000 vezes mais longa que o genoma humano: se você escrevesse em linha reta, alcançaria a Lua e voltaria 10 vezes. ”
A escala desses dados é, sem dúvida, impressionante, e todos nós temos sorte de a equipe do Google Livros ter divulgado esses dados ao público (na verdade, algumas das atividades no final deste capítulo fazem uso desses dados). Mas, sempre que você vir algo assim, você deve perguntar: todos esses dados estão realmente fazendo alguma coisa? Eles poderiam ter feito a mesma pesquisa se os dados pudessem alcançar a Lua e voltar apenas uma vez? E se os dados só pudessem chegar ao topo do Monte Everest ou ao topo da Torre Eiffel?
Neste caso, a pesquisa deles, de fato, tem algumas descobertas que exigem um enorme corpus de palavras durante um longo período de tempo. Por exemplo, uma coisa que eles exploram é a evolução da gramática, particularmente as mudanças na taxa de conjugação de verbos irregulares. Como alguns verbos irregulares são bastante raros, uma grande quantidade de dados é necessária para detectar alterações ao longo do tempo. No entanto, com muita frequência, os pesquisadores parecem tratar o tamanho da grande fonte de dados como um fim - “veja quantos dados eu posso analisar” - ao invés de um meio para algum objetivo científico mais importante.
Na minha experiência, o estudo de eventos raros é um dos três fins científicos específicos que os grandes conjuntos de dados tendem a permitir. O segundo é o estudo da heterogeneidade, como pode ser ilustrado por um estudo de Raj Chetty e colaboradores (2014) sobre mobilidade social nos Estados Unidos. No passado, muitos pesquisadores estudaram a mobilidade social comparando os resultados de vida de pais e filhos. Um achado consistente desta literatura é que os pais com vantagem tendem a ter filhos favorecidos, mas a força dessa relação varia com o tempo e entre os países (Hout and DiPrete 2006) . Mais recentemente, entretanto, Chetty e seus colegas puderam usar os registros fiscais de 40 milhões de pessoas para estimar a heterogeneidade na mobilidade intergeracional entre as regiões dos Estados Unidos (figura 2.1). Eles descobriram, por exemplo, que a probabilidade de uma criança atingir o primeiro quintil da distribuição de renda nacional a partir de uma família no quintil mais baixo é de cerca de 13% em San Jose, Califórnia, mas apenas 4% em Charlotte, Carolina do Norte. Se você observar a figura 2.1 por um momento, pode começar a se perguntar por que a mobilidade intergeracional é maior em alguns lugares do que em outros. Chetty e seus colegas tinham exatamente a mesma pergunta, e descobriram que as áreas de alta mobilidade têm menos segregação residencial, menos desigualdade de renda, melhores escolas primárias, maior capital social e maior estabilidade familiar. É claro que essas correlações, por si só, não mostram que esses fatores causam maior mobilidade, mas sugerem possíveis mecanismos que podem ser explorados em outros trabalhos, exatamente o que Chetty e seus colegas fizeram em trabalhos posteriores. Observe como o tamanho dos dados foi realmente importante neste projeto. Se Chetty e seus colegas tivessem usado os registros fiscais de 40 mil pessoas em vez de 40 milhões, eles não teriam sido capazes de estimar a heterogeneidade regional e nunca teriam sido capazes de fazer pesquisas subsequentes para tentar identificar os mecanismos que criam essa variação.
Finalmente, além de estudar eventos raros e estudar a heterogeneidade, grandes conjuntos de dados também permitem que os pesquisadores detectem pequenas diferenças. Na verdade, grande parte do foco em big data na indústria é sobre essas pequenas diferenças: detectar com segurança a diferença entre taxas de cliques de 1% e 1,1% em um anúncio pode resultar em milhões de dólares em receita extra. Em alguns contextos científicos, no entanto, essas pequenas diferenças podem não ser particularmente importantes, mesmo que sejam estatisticamente significativas (Prentice and Miller 1992) . Mas, em algumas configurações de política, elas podem se tornar importantes quando visualizadas de forma agregada. Por exemplo, se houver duas intervenções de saúde pública e uma for um pouco mais eficaz do que a outra, escolher a intervenção mais eficaz poderá salvar milhares de vidas adicionais.
Embora a grandeza geralmente seja uma boa propriedade quando usada corretamente, notei que às vezes pode levar a um erro conceitual. Por alguma razão, a grandeza parece levar os pesquisadores a ignorar como seus dados foram gerados. Embora a grandeza reduza a necessidade de se preocupar com erro aleatório, ela realmente aumenta a necessidade de se preocupar com erros sistemáticos, os tipos de erros que descreverei a seguir que surgem de vieses em como os dados são criados. Por exemplo, em um projeto que descreverei mais adiante neste capítulo, os pesquisadores usaram mensagens geradas em 11 de setembro de 2001 para produzir um cronograma emocional de alta resolução da reação ao ataque terrorista (Back, Küfner, and Egloff 2010) . Como os pesquisadores tinham um grande número de mensagens, eles realmente não precisavam se preocupar se os padrões observados - aumentando a raiva ao longo do dia - poderiam ser explicados pela variação aleatória. Havia tantos dados e o padrão era tão claro que todos os testes estatísticos estatísticos sugeriam que esse era um padrão real. Mas, esses testes estatísticos eram ignorantes de como os dados foram criados. De fato, descobriu-se que muitos dos padrões eram atribuíveis a um único bot que gerava mais e mais mensagens sem sentido ao longo do dia. A remoção desse bot destruiu completamente algumas das principais descobertas do artigo (Pury 2011; Back, Küfner, and Egloff 2011) . Muito simplesmente, os pesquisadores que não pensam em erros sistemáticos enfrentam o risco de usar seus grandes conjuntos de dados para obter uma estimativa precisa de uma quantidade sem importância, como o conteúdo emocional de mensagens sem sentido produzidas por um bot automatizado.
Em conclusão, os grandes conjuntos de dados não são um fim em si, mas podem permitir certos tipos de pesquisa, incluindo o estudo de eventos raros, a estimativa da heterogeneidade e a detecção de pequenas diferenças. Grandes conjuntos de dados também parecem levar alguns pesquisadores a ignorar como seus dados foram criados, o que pode levá-los a obter uma estimativa precisa de uma quantidade sem importância.