2.3.1.1 Big

Groot datastelle is 'n middel tot 'n einde aan gemaak; hulle is nie 'n doel op sigself.

Die eerste van die drie goeie eienskappe van die groot data is die mees bespreek: dit is 'n groot data. baie mense, baie van die inligting per persoon, of baie waarnemings met verloop van tyd: Hierdie databronne kan groot op drie verskillende maniere wees. Na 'n groot datastel in staat stel om 'n spesifieke tipe-navorsing te meet heterogeniteit, studeer seldsame gebeurtenisse, die opsporing van klein verskille, en die maak van oorsaaklike skattings van waarneming data. Dit blyk ook lei tot 'n spesifieke tipe sloppiness.

Die eerste ding wat waarvoor grootte is veral nuttig beweeg buite gemiddeldes skattings vir spesifieke subgroepe te maak. Byvoorbeeld, Gary King, Jennifer Pan, en Molly Roberts (2013) gemeet die waarskynlikheid dat sosiale media poste in China sou word gesensor deur die regering. Op sigself hierdie gemiddelde waarskynlikheid te skrap is nie baie nuttig vir die begrip van waarom die regering censoren paar poste, maar ander nie. Maar, omdat hulle dataset ingesluit 11 miljoen poste, Koning en kollegas het ook skattings vir die waarskynlikheid van sensuur vir poste op 85 verskillende kategorieë (bv, pornografie, Tibet, en Verkeer in Beijing). Deur vergelyking van die waarskynlikheid van sensuur vir poste in verskillende kategorieë, was hulle in staat om meer inligting oor hoe en hoekom die regering censoren sekere poste te verstaan. Met 11.000 poste (eerder as 11 miljoen poste), sou hulle nie in staat was om hierdie kategorie spesifieke beramings te produseer.

Tweede, grootte is veral nuttig vir studeer van seldsame gebeurtenisse. Byvoorbeeld, Goel en kollegas (2015) wou die verskillende maniere waarop tweets virale kan gaan studeer. Omdat groot watervalle van re-tweets is uiters skaars-oor een in 'n 3000-hulle nodig het om meer as 'n miljard tweets om genoeg groot watervalle vir hul ontleding vind bestudeer.

Derde, groot datastelle in staat stel navorsers om klein verskille op te spoor. Trouens, baie van die fokus op die groot data in die bedryf is oor hierdie klein verskille: betroubaar opsporing van die verskil tussen 1% en 1,1% deur klik tariewe op 'n ad kan vertaal in miljoene dollars in ekstra inkomste. In sommige wetenskaplike instellings, kan so 'n klein verskille nie besonder belangrik wees (selfs al is hulle statisties beduidende). Maar, in sommige beleid instellings, so 'n klein verskille kan belangriker geword wanneer dit in totaal. Byvoorbeeld, as daar twee openbare gesondheid intervensies en een is effens meer effektief as die ander, dan oor te skakel na die meer effektiewe intervensie kan beland spaar duisende bykomende lewens.

Ten slotte, 'n groot datastelle grootliks vermeerder ons vermoë om kousale skattings te maak van waarneming data. Hoewel groot datastelle die probleme nie fundamenteel nie verander met die maak van kousale inferensie uit waarneming data, wat ooreenstem met die natuurlike eksperimente twee tegnieke wat navorsers ontwikkel vir die maak van oorsaaklike eise van waarneming data-beide baie baat by groot datastelle. Ek sal verduidelik en hierdie eis in meer besonderhede later illustreer in hierdie hoofstuk toe ek navorsingstrategieë te beskryf.

Hoewel bigness is oor die algemeen 'n goeie eiendom wanneer dit korrek gebruik word, het ek opgemerk dat bigness algemeen lei tot 'n konseptuele fout. Vir een of ander rede, bigness lyk navorsers lei tot ignoreer hoe hul data gegenereer. Terwyl bigness doen verminder die behoefte om te bekommer oor ewekansige fout, dit eintlik verhoog die behoefte om te bekommer oor sistematiese foute, die soorte foute wat ek sal beskryf in meer hieronder wat ontstaan ​​as gevolg van vooroordele in hoe data geskep en ingesamel. In 'n klein dataset, kan beide ewekansige fout en sistematiese fout belangrik wees, maar in 'n groot datastel ewekansige fout kan weg wees gemiddeld en sistematiese fout oorheers. Navorsers wat nie dink oor sistematiese fout sal uiteindelik met behulp van hul groot datastelle om 'n akkurate skatting van die verkeerde ding te kry; hulle sal wees presies onakkurate (McFarland and McFarland 2015) .