Grans conjunts de dades són un mitjà per a un fi; no són un fi en si mateixos.
La primera de les tres bones característiques de dades gran és el més discutit: es tracta de grans volums de dades. Aquestes fonts de dades poden ser grans en tres formes diferents: molta gent, un munt d'informació per persona, o moltes observacions al llarg del temps. Tenir un gran conjunt de dades permet a alguns tipus específics d'investigació heterogeneïtat de mesurament, l'estudi d'esdeveniments rars, detectar petites diferències, i fer estimacions causals de les dades d'observació. També sembla conduir a un tipus específic de deixadesa.
La primera cosa perquè la mida és particularment útil s'està movent més enllà de les mitjanes per fer estimacions dels subgrups específics. Per exemple, Gary King, Jennifer Pa, i Molly Roberts (2013) van mesurar la probabilitat que els missatges dels mitjans socials a la Xina serien censurats pel govern. Per si mateixa, aquesta probabilitat mitjana d'eliminació no és molt útil per entendre per què el govern censura alguns llocs però no en altres. Però, a causa de que el seu conjunt de dades inclou 11 milions de missatges, el rei i els seus col·legues també produeixen estimacions de la probabilitat de censura per a llocs en 85 categories diferents (per exemple, la pornografia, el Tibet, i el trànsit a Beijing). En comparar la probabilitat de censura per a enviaments en diferents categories, que van ser capaços d'entendre més sobre com i per què el govern censura certs tipus de missatges. Amb 11 mil llocs (en lloc de 11 milions d'entrades), que no haurien estat capaços de produir aquestes estimacions específiques de la categoria.
En segon lloc, la mida és particularment útil per a l'estudi dels esdeveniments es rares. Per exemple, Goel et al (2015) volien estudiar les diferents maneres en què els tweets poden anar viral. A causa de les grans cascades de re-tweets són extremadament rars, aproximadament un de cadascuna de 3.000 que necessitaven per estudiar més de mil milions de tweets per tal de trobar suficients cascades grans per a la seva anàlisi.
En tercer lloc, grans conjunts de dades permeten als investigadors detectar petites diferències. De fet, gran part de l'atenció en grans volums de dades en la indústria és sobre aquestes petites diferències: detectar de forma fiable la diferència entre l'1% i el 1,1% percentatges de clics en un anunci pot traduir-se en milions de dòlars en ingressos extra. En alguns entorns científics, aquestes petites diferències podrien no ser particularment important (fins i tot si són estadísticament significatives). No obstant això, en algunes configuracions de directiva, diferències tan petites poden arribar a ser important si es considera en conjunt. Per exemple, si hi ha dues intervencions de salut pública i una és lleugerament més eficaç que l'altre, es pot canviar a la intervenció més eficaç podria arribar a estalviar milers de vides addicionals.
Finalment, grans conjunts de dades augmenten en gran mesura la nostra capacitat per fer estimacions causals de les dades d'observació. Tot i grans conjunts de dades no canvien fonamentalment els problemes amb la fabricació de la inferència causal de les dades d'observació, a joc i els experiments naturals i dues tècniques que els investigadors han desenvolupat per fer afirmacions causals de les dades d'observació, tant beneficiar molt de grans conjunts de dades. Vaig a explicar i il·lustrar aquesta afirmació amb més detall més endavant en aquest capítol quan descric estratègies d'investigació.
Malgrat el gran és generalment una bona propietat quan s'usa correctament, m'he adonat que el gran comunament condueix a un error conceptual. Per alguna raó, la grandesa sembla conduir als investigadors a ignorar com es va generar les seves dades. Mentre grandesa redueix la necessitat de preocupar-se per l'error aleatori, en realitat, augmenta la necessitat de preocupar-se pels errors sistemàtics, els tipus d'errors que vaig a descriure més baix que sorgeixen dels biaixos en com es creen i es van recollir les dades. En un petit conjunt de dades, tant els errors aleatoris i errors sistemàtics poden ser importants, però en un gran error aleatori conjunt de dades es poden fer la mitjana distància i domina l'error sistemàtic. Els investigadors que no pensen sobre error sistemàtic va a acabar usant els seus grans conjunts de dades per obtenir una estimació precisa del que és incorrecte; van a ser precisament inexacta (McFarland and McFarland 2015) .