2.3.1.1 Big

Grutte datasets binne in middel ta in ein; se binne net in ein yn harsels.

De earste fan 'e trije goede eigenskippen fan grutte gegevens is de meast besprutsen: dat binne grutte gegevens. Dy gegevens boarnen kin wêze grut yn trije ferskillende wizen: in protte minsken, in soad ynformaasje per persoan, of in soad observaasjes oer tiid. It hawwen fan in grutte dataset aktivearret inkele spesifike soarten fan ûndersyk-mjitten heterogeneity, stúdzje seldsume eveneminten, detecting lytse ferskillen, en it meitsjen fan kausale rûzings fan feiten 't waarnimming. It ek liket te liede nei in spesifyk type sloppiness.

De earste ding dêr't grutte is benammen brûkber is beweecht boppe gemiddelden om rûzings foar spesifike groepen. Bygelyks, Gary King, Jennifer Pan, en Molly Roberts (2013) meat de kâns dat sosjale media berjochten yn Sina soe wurde censored troch de oerheid. By himsels dizze trochsneed kâns wiskjen is net hiel brûkber foar begripen wêrom de oerheid censors guon berjochten mar net oaren. Mar, omdat harren dataset opnaam 11 miljoen berichten, kening en kollega ek produsearre Rûzings foar it kâns fan sensuer foar berjochten op 85 aparte kategoryen (bygelyks, pornografy, Tibet, en Ferkear yn Peking). Troch fergelykjen de kâns fan sensuer foar berjochten yn ferskate kategoryen, se wienen by steat om te ferstean mear oer hoe't en wêrom't it regear censors bepaalde typen fan berjochten. Mei 11 tûzen berichten (ynstee fan 11 miljoen berichten), se soene net west hawwe kinne produsearje dizze kategory-spesifike rûzings.

Twadde, grutte is benammen brûkber foar is stúdzje fan seldsume eveneminten. Bygelyks, Goel en kollega (2015) woe studearje de ferskillende wizen dat tweets kinne gean firale. Omdat grutte Cascades fan re-tweets binne tige seldsum-oer ien yn in 3.000-se nedich te bestudearjen mear as in miljard tweets om te finen genôch grutte Cascades foar harren analyze.

Tredde, grutte datasets ynskeakelje ûndersikers te spoaren lytse ferskillen. Yn feite, in soad fan de fokus op grutte gegevens yn yndustry is oer dizze lytse ferskillen: betrouber detecting it ferskil tusken 1% en 1.1% klik-troch tariven op in advertinsje kin fertale yn miljoenen dollars yn ekstra ynkomsten. Yn guon wittenskiplike ynstellings, sokke lytse ferskillen kinne net wêze benammen fan belang (ek as se binne statistysk signifikante). Mar, yn guon belied ynstellings, sokke lytse ferskillen kinne wurden wichtich as besjoen yn aggregaat. Bygelyks, as der twa folkssûnens yngrepen en ien is wat mear effektiver as de oare, dan wikseljen nei it effektiver yntervinsje koe end up saving tûzenen ekstra libben.

Ta beslút, grutte gegevens sets sterk fergrutsje ús fermogen om kausale rûzings fan feiten 't waarnimming. Hoewol't grutte datasets net folslein feroarje de problemen mei it meitsjen fan kausale konklúzje út feiten 't waarnimming, oerienkommende en natuerlike eksperiminten-twa techniken dy't ûndersikers hawwe ûntwikkele foar it meitsjen kausale oanspraken fan feiten' t waarnimming-sawol sterk profitearje fan grutte datasets. Ik sil útlizze en yllustrearje dizze kleem yn grutter detail letter yn dit haadstik doe't ik beskriuwe ûndersyk strategyen.

Hoewol't bigness is oer it algemien in goede eigenskip as brûkt goed, ik haw murken dat bigness faak liedt ta in konseptuele flater. Foar guon reden, bigness liket te liede ûndersikers te negearje hoe't harren gegevens waard oanmakke. Wylst bigness docht ferminderjen de needsaak om te soargen oer random flater, dat eins ferheget de needsaak om te soargen oer systematysk flaters, de soarten fan flaters dy't ik beskriuwe yn mear ûnder dat ûntstean út biases yn hoe't gegevens wurde makke en sammele. Yn in lyts dataset, sawol willekeurige flater en systematyske flater kin wêze wichtich, mar yn in grutte dataset willekeurige flater is kinne wurde averaged fuort en systematyske flater oerhearsket. Ûndersikers dy't net tinke oer systematyske flater sil ein op mei help fan harren grutte datasets om in sekuere rûzing fan 'e ferkearde ding; hja sil krekt miny-ôfbyldings (McFarland and McFarland 2015) .