2.3.1.1 Didelis

Didelės apimties duomenų bazėms yra priemonė tikslui pasiekti; jie nėra tikslas pats savaime.

Pirmasis iš trijų geras savybes didelis duomenų yra labiausiai aptarinėjamas: tai yra didelis duomenys. Šie duomenų šaltiniai gali būti didelis trimis skirtingais būdais: daugelis žmonių, daug informacijos vienam asmeniui, ar daug pastabų laikui bėgant. Atsižvelgdama didelį rinkinį leidžia keletą konkrečių rūšių mokslinių tyrimų matavimo heterogeniškumo, studijuoja retų renginių, aptikti mažus skirtumus ir priežastinius ryšius sąmatas iš stebėjimo duomenų. Taip pat atrodo, kad sukelti tam tikro tipo Niechlujstwo.

Pirmas dalykas, dėl kurio dydis yra ypač naudinga, juda ne tik vidurkiai padaryti sąmatas konkretiems pogrupiams. Pavyzdžiui, Gary King Jennifer Visos ir Molly Roberts (2013) matuojamas tikimybę, kad socialinės žiniasklaidos pranešimų iš Kinijos bus cenzūruojamas vyriausybės. Pati tai vidutiniškai tikimybė ištrynimą nėra labai naudinga suprasti, kodėl vyriausybė cenzoriai keletą pranešimų, bet ne kiti. Bet, kadangi jų rinkinys sudarė 11 mln pranešimus, karalius ir jo kolegos taip pat gaminami sąmatos cenzūros tikimybės postuose 85 atskiras kategorijas (pvz, pornografija, Tibetas ir eismo Pekine). Lyginant cenzūros už pranešimų skirtingų kategorijų tikimybę, jie sugebėjo suprasti daugiau apie tai, kaip ir kodėl vyriausybė cenzoriai tam tikrų tipų postus. 11 tūkstančių pranešimų (o ne 11 milijonų žinučių), jie nebūtų galėję gaminti šių konkrečių kategorijų įvertinimus.

Antra, dydis yra ypač naudinga studijuoja retų įvykių. Pavyzdžiui, Goel ir kolegos (2015) norėjo studijuoti skirtingus būdus, kad "Twitter" gali eiti virusinės. Kadangi dideli kaskadomis pakartotinio tweets yra labai reti, apie vieną iš 3000-jiems reikia mokytis daugiau nei milijardą tweets produktais tam kad rasti pakankamai didelis kaskadomis jų analizė.

Trečia, didelės apimties duomenų bazėms įgalinti tyrinėtojus aptikti mažus skirtumus. Tiesą sakant, daug dėmesio skiriant didelių duomenų pramonėje yra apie šių mažų skirtumų: patikimai aptikti nuo 1% iki 1,1% paspaudimų rodikliai skirtumas ant reklamos galite išversti į milijonus dolerių papildomų pajamų. Kai mokslo nustatymų, tokie maži skirtumai gali būti ypač svarbu (net jei jie yra statistiškai reikšmingas). Tačiau, kai kuriais politikos nustatymų, tokie maži skirtumai gali tapti svarbus žiūrint kartu. Pavyzdžiui, jei yra du visuomenės sveikatos intervencijų ir viena yra šiek tiek efektyviau nei kiti, tada pereiti prie efektyvesnio intervencijos gali baigtis sutaupyti tūkstančius papildomų gyvybių.

Galiausiai, didelių duomenų rinkinių gerokai padidinti mūsų gebėjimą priimti priežastinius sąmatas iš stebėjimo duomenų. Nors didelių duomenų rinkinių nereikia iš esmės pakeisti problemas su priėmimo priežastinio išvados iš stebėjimo duomenimis, atitikimo ir fiziniai eksperimentai-du metodus, mokslininkai sukūrė už priežastinius teiginius iš stebėjimo duomenų apdorojimo tiek daug naudos iš didelių duomenų rinkinių. Aš paaiškinti ir iliustruoti šį teiginį išsamiau vėliau šiame skyriuje, kai aš apibūdinti mokslinių tyrimų strategijas.

Nors didybę paprastai yra gera savybė, kai naudojamas teisingai, aš pastebėjau, kad didybę dažniausiai veda prie konceptualaus klaidos. Dėl tam tikrų priežasčių, didybę, atrodo, veda tyrėjus ignoruoti, kaip jų duomenys buvo sukurtas. Nors didybę ar sumažinti jaudintis atsitiktinės paklaidos, ji iš tikrųjų padidina reikalo nerimauti sisteminių klaidų, iš klaidų, kad aš aprašyti daugiau nei, kad rūšių atsirasti paklaidų, kaip duomenys yra sukurtas ir surinkti. Nedideliame rinkinį, tiek atsitiktinė paklaida ir sisteminė paklaida gali būti svarbi, tačiau didelėje rinkinį atsitiktinės paklaidos yra galima vidutiniškai toli ir sisteminė paklaida dominuoja. Mokslininkai, kurie neturi galvoti apie sistemingai klaidos bus baigti naudojant savo dideles duomenų rinkinius gauti tikslią sąmatą blogas dalykas; jie bus tiksliai netikslūs (McFarland and McFarland 2015) .