Grandes conjuntos de dados são um meio para um fim; eles não são um fim em si.
O primeiro dos três boas características de big data é o mais discutido: estes são grandes de dados. Estas fontes de dados pode ser grande de três maneiras diferentes: muitas pessoas, muita informação por pessoa, ou muitas observações ao longo do tempo. Ter um grande conjunto de dados permite que alguns tipos específicos de heterogeneidade de medição de pesquisa, estudando eventos raros, detectar pequenas diferenças, e fazer estimativas causais a partir de dados observacionais. Ele também parece levar a um tipo específico de desleixo.
A primeira coisa para a qual o tamanho é particularmente útil está se movendo para além das médias de fazer estimativas para subgrupos específicos. Por exemplo, Gary King, Jennifer Pan, e Molly Roberts (2013) mediram a probabilidade de que as mensagens de mídia social na China seria censurado pelo governo. Por si só essa probabilidade média de eliminação não é muito útil para entender por que o governo censura alguns posts, mas não outros. Mas, porque o seu conjunto de dados incluiu 11 milhões de mensagens, o rei e seus colegas também produziu estimativas para a probabilidade de censura por mensagens em 85 categorias distintas (por exemplo, a pornografia, o Tibete, eo tráfego em Pequim). Ao comparar a probabilidade de censura por mensagens em diferentes categorias, eles foram capazes de entender mais sobre como e por que o governo censura certos tipos de mensagens. Com 11 mil lugares (em vez de 11 milhões de posts), eles não teriam sido capazes de produzir estas estimativas específicas da categoria.
Em segundo lugar, o tamanho é particularmente útil para está estudando de eventos raros. Por exemplo, Goel e seus colegas (2015) queria estudar as diferentes maneiras que os tweets pode ir viral. Porque grandes cascatas de re-tweets são extremamente raros-cerca de um em um 3000 que precisava estudar mais de um bilhão de tweets, a fim de encontrar grandes cascatas suficiente para a sua análise.
Em terceiro lugar, grandes conjuntos de dados permitir aos investigadores para detectar pequenas diferenças. Na verdade, grande parte do foco em dados grandes na indústria é sobre estas pequenas diferenças: detectar com fiabilidade a diferença entre as taxas de click-through 1% e 1,1% em um anúncio pode se traduzir em milhões de dólares em receita extra. Em alguns contextos científicos, tais pequenas diferenças podem não ser particularmente importantes (mesmo se eles são estatisticamente significativas). Mas, em algumas configurações de política, essas pequenas diferenças podem tornar-se importante quando vistos em conjunto. Por exemplo, se houver duas intervenções de saúde pública e um é um pouco mais eficaz do que o outro, então a mudança para a intervenção mais eficaz poderia acabar salvando milhares de vidas adicionais.
Finalmente, grandes conjuntos de dados aumentar significativamente a nossa capacidade de fazer estimativas causais a partir de dados observacionais. Apesar de grandes conjuntos de dados não mudar fundamentalmente os problemas com fazer inferência causal a partir de dados observacionais, correspondência e experiências e dois naturais técnicas que os pesquisadores desenvolveram para fazer afirmações causais de observação de dados em ambas beneficiar muito de grandes conjuntos de dados. Vou explicar e ilustrar esta afirmação em maior detalhe mais adiante neste capítulo quando eu descrever as estratégias de investigação.
Embora grandeza é geralmente uma boa propriedade, quando utilizado corretamente, tenho notado que bigness comumente leva a um erro conceitual. Por alguma razão, bigness parece levar os pesquisadores a ignorar como seus dados foi gerado. Enquanto bigness faz reduzir a necessidade de se preocupar com erros aleatórios, ele realmente aumenta a necessidade de se preocupar com erros sistemáticos, os tipos de erros que eu vou descrever mais abaixo que surgem de preconceitos em como os dados são criados e recolhidos. Em um pequeno conjunto de dados, tanto erros aleatórios e erro sistemático pode ser importante, mas em um grande erro aleatório conjunto de dados é pode ser calculada a média distância e erro sistemático domina. Os investigadores que não pensam sobre o erro sistemático vai acabar usando seus grandes conjuntos de dados para obter uma estimativa precisa da coisa errada; eles serão precisamente imprecisa (McFarland and McFarland 2015) .