2.3.1.1 Big

Grandes conxuntos de datos son un medio para un fin; eles non son un fin en si.

O primeiro dos tres boas características de big data é o máis discutido: estes son grandes de datos. Estas fontes de datos pode ser grande de tres xeitos diferentes: moita xente, moita información por persoa, ou moitas observacións ao longo do tempo. Ter un gran conxunto de datos permite que algúns tipos específicos de heteroxeneidade de medición de investigación, estudando eventos raros, detectar pequenas diferenzas, e facer estimacións causais a partir de datos observacionais. Tamén parece levar a un tipo específico de desleixo.

O primeiro para o que o tamaño é especialmente útil se está movendo máis aló das medias de facer estimacións para subgrupos específicos. Por exemplo, Gary King, Jennifer Pan, e Molly Roberts (2013) mediron a probabilidade de que as mensaxes de comunicación social en China sería censurado polo goberno. Por si só esa probabilidade media de eliminación é moi útil para entender por que o goberno censura algúns artigos, pero non outros. Pero, xa que o seu conxunto de datos inclúe 11 millóns de mensaxes, o rei e os seus colegas tamén produciu estimacións para a probabilidade de censura por mensaxes en 85 categorías distintas (por exemplo, a pornografía, o Tíbet, eo tráfico en Pequín). Ao comparar a probabilidade de censura por mensaxes en diferentes categorías, eles foron capaces de entender máis sobre como e por que o goberno censura certos tipos de mensaxes. Con 11 mil lugares (no canto de 11 millóns de artigos), eles non serían capaces de producir estas estimacións específicas da categoría.

En segundo lugar, o tamaño é especialmente útil para está estudando de eventos raros. Por exemplo, Goel e os seus colegas (2015) quería estudar as distintas formas que os tweets pode ir viral. Porque grandes fervenzas de re-tweets son moi raros-preto dun nun 3000 que precisaba estudar máis de mil millóns de tweets, a fin de atopar grandes fervenzas suficiente para a súa análise.

En terceiro lugar, grandes conxuntos de datos que os investigadores para detectar pequenas diferenzas. De feito, gran parte do foco en datos grandes na industria é sobre estas pequenas diferenzas: detectar con fiabilidade a diferenza entre as taxas de click-through 1% e 1,1% nun anuncio pode traducirse en millóns de dólares en ingresos extra. Nalgúns contextos científicos, tales pequenas diferenzas poden non ser particularmente importantes (mesmo se son estatisticamente significativas). Pero, en algunhas opcións de política, esas pequenas diferenzas poden chegar a ser importante cando vistos xuntos. Por exemplo, se hai dúas intervencións de saúde pública e un é un pouco máis eficaz que o outro, entón o cambio para a intervención máis eficaz podería acabar salvando miles de vidas adicionais.

Finalmente, grandes conxuntos de datos aumentar significativamente a nosa capacidade de facer estimacións causais a partir de datos observacionais. A pesar de grandes conxuntos de datos non cambiar fundamentalmente os problemas con facer inferencia causal a partir de datos observacionais, correspondencia e experiencias e dous naturais técnicas que os investigadores desenvolveron para facer afirmacións causais de observación de datos en ambas beneficiar moito de grandes conxuntos de datos. Vou explicar e ilustrar esta afirmación en maior detalle máis adiante neste capítulo cando describir as estratexias de investigación.

Aínda grandeza é xeralmente unha boa propiedade, cando se emprega correctamente, teño notado que bigness comunmente leva a un erro conceptual. Por algunha razón, bigness parece levar os investigadores a ignorar como os seus datos foi xerado. Mentres bigness fai reducir a necesidade de se preocupar con erros aleatorios, realmente aumenta a necesidade de se preocupar con erros sistemáticos, os tipos de erros que eu vou describir máis abaixo que xorden de prexuízos en como os datos son creados e recollidos. Nun pequeno conxunto de datos, tanto erros aleatorios e erro sistemático pode ser importante, pero en un gran erro aleatorio conxunto de datos pode ser calculada a media distancia e erro sistemático domina. Investigadores que non pensa sobre o erro sistemático vai acabar usando os seus grandes conxuntos de datos para obter unha estimación precisa da cousa incorrecta; eles serán precisamente imprecisa (McFarland and McFarland 2015) .