2.3.1.1 Big

Store datasæt er et middel til ophør; de er ikke et mål i sig selv.

Den første af de tre gode egenskaber for big data er den mest diskuterede: disse er store data. Disse datakilder kan være stor på tre forskellige måder: Mange mennesker, masser af information per person, eller mange observationer over tid. At have en stor datasæt giver nogle specifikke typer af forskning-måling heterogenitet, studere sjældne begivenheder, afsløre små forskelle, og gøre kausale estimater fra observationsdata. Det synes også at føre til en bestemt type sløseri.

Den første ting, for hvilke størrelsen er især nyttig flytter ud gennemsnit at foretage skøn for specifikke undergrupper. For eksempel, Gary konge, Jennifer Pan, og Molly Roberts (2013) målte sandsynligheden for, at sociale medier stillinger i Kina ville blive censureret af regeringen. I sig selv denne gennemsnitlige sandsynlighed for sletning er ikke meget nyttigt for at forstå, hvorfor regeringen censurerer nogle stillinger, men ikke andre. Men, fordi deres datasæt omfattede 11 millioner indlæg, konge og kolleger producerede også estimater for sandsynligheden for censur for stillinger på 85 forskellige kategorier (f.eks pornografi, Tibet, og Trafik i Beijing). Ved at sammenligne sandsynligheden for censur til stillinger i forskellige kategorier, de var i stand til at forstå mere om, hvordan og hvorfor regeringen censurerer visse typer stillinger. Med 11 tusind stillinger (i stedet for 11 millioner indlæg), ville de ikke have været i stand til at producere disse kategori-specifikke estimater.

Sekund, størrelse er særligt anvendelig til studerer af sjældne hændelser. For eksempel Goel og kolleger (2015) ønskede at studere de forskellige måder, tweets kan gå viral. Fordi store kaskader af re-tweets er ekstremt sjældne-om en i et 3000-de havde brug for at studere mere end en milliard tweets for at finde nok store kaskader for deres analyse.

For det tredje, store datasæt gør det muligt for forskerne at detektere små forskelle. Faktisk meget af fokus på store data i industrien er om disse små forskelle: pålidelig detektering af forskellen mellem 1% og 1,1% klikrater på en annonce kan oversætte til millioner af dollars i ekstra indtægt. I nogle videnskabelige indstillinger, kan sådanne små forskelle ikke være særligt vigtige (selv om de er statistisk signifikant). Men i nogle politiske indstillinger, kan sådanne små forskelle bliver vigtige, når de ses samlet. For eksempel, hvis der er to offentlige interventioner på sundhedsområdet og den ene er lidt mere effektiv end den anden, så at skifte til mere effektiv indsats kan ende med at spare tusindvis af ekstra liv.

Endelig store datasæt i høj grad øge vores evne til at gøre kausale estimater fra observationsdata. Selvom store datasæt ikke fundamentalt ændre problemerne med at lave kausal inferens fra observationsdata, matching og naturlige eksperimenter-to teknikker, som forskere har udviklet for at gøre kausale krav fra observationelle data-både stor gavn af store datasæt. Jeg vil forklare og illustrere denne påstand nærmere senere i dette kapitel, når jeg beskriver forskningsstrategier.

Selvom bigness er generelt en god egenskab, når de anvendes korrekt, har jeg bemærket, at bigness medfører ofte en konceptuel fejl. Af en eller anden grund, bigness synes at føre forskerne til at ignorere, hvordan deres data blev genereret. Mens bigness gør mindske behovet for at bekymre sig om tilfældige fejl, det faktisk øger behovet for at bekymre sig om systematiske fejl, den slags fejl, som jeg vil beskrive i mere under det skyldes fordomme i, hvordan data skabes og opsamles. I en lille datasæt, kan både tilfældige fejl og systematiske fejl være vigtigt, men i en stor datasæt tilfældig fejl kan i gennemsnit væk og systematiske fejl dominerer. Forskere, der ikke tænker om systematiske fejl vil ende med at bruge deres store datasæt at få et præcist skøn over de forkerte ting; de vil være præcist unøjagtig (McFarland and McFarland 2015) .