2.3.1.1 Big

Datasets mezin in, tê wateya bi dawî; ew in ku dawî li xwe ne.

Di cara yekem da sê taybetiyên baş ên data mezin e, herî nîqaşkirin: ev welat pir mezin de ne. Van çavkaniyên daneyan dikare bibe mezin bi sê awayên cuda: gelek kesan, gelek agahî per kesê, an jî çavdêriyên gelek ser dem. Hebûna a dataset mezin dihêle hin cureyên taybetî yên heterojen lêkolîn-pîvandinê, xwendina bûyerên kêm, pêl cudahiyên biçûk, û çêkirina texmînên sebebî ji welat observational. Ev jî xuya dike ku rê bi taybet yên sloppiness.

Yekemîn tiştê ku ji bo ku size taybetî bikêr e wêdetir ava Kurdayetiyê ji bo ku bi texmînî ji bo jêrekomên taybet. Ji bo nimûne, Gary King, Jennifer Pan, û Molly Roberts (2013) pîva, dibe ku posts medya civakî de li Çînê dê ji aliyê hikûmeta sansorkirin. Bi xwe ev ihtîmaleke navînî ji jêbirina e ji bo têgihiştina vê yekê hikûmeta qedexeya hin posts lê yên din ne pir ne alîkar e. Lê belê, ji ber ku dataset xwe di nav de 11 milyon posts, King û hevalên xwe jî bi texmînî ji bo sîlahan ji sansor bo mesajan li ser 85 categories cuda de (wek nimûne, pornoya, Tibet, û Traffic li Pekînê) hilberandin. Di riya danberheva de bi îhtimaleke mezin ji sansor bo posts li kategoriyên cihê, ew karibe bi more about çawa û çima hikûmeta qedexeya cureyên hinek ji yên posts bûn. Bi 11 hezar posts (bêtir ji 11 milyon posts), ew ê ne dikaribû ji bo hilberîna van hejmaran-category taybet bû.

Duyemîn, mezinbûnê bi taybetî ji bo is dixwend ji bûyerên kêm kêrhatî ye. Ji bo nimûne, Goel û hevalên (2015) xwest ji bo lêkolînên riyên cuda ku dardakirin, dikarin bi zûyî here. Ji ber ku cascades mezin a re-dardakirin, in, pir kêm-li ser yekî li 3,000-ew pêwîst ji bo lêkolînên zêdetir milyar dardakirin de ji bo peydakirina cascades mezin bes ji bo analîzên xwe.

Sêyemîn, datasets mezin lêkolînerên çalak bo tesbîtkirina cudahiyên biçûk. Di rastiyê de, gelek girîngi li ser daneyên mezin di sektora e li ser van cudahiyên biçûk: hevkêş pêl Ferqa di navbera rates 1% û 1.1% klîk-rêya li ser ad dikarin nav milyon dolar dahatê zêde wergerîne. Li hin settings zanistî, wiha cudahiyên biçûk bi bibe bi taybetî girîng e (heta eger ew îstatîstîkî ve jî watedar in). Lê belê, di hin settings siyaseta, wiha cudahiyên biçûk dikarin girîng dema ku li pź bînrawe bûye. Ji bo nimûne, eger ne li wê derê du mudaxeleyên tendurustîya gelêrî û yek hinekî zêdetir bi bandor ji ya din jî, paşê ji bo guhertina ji bo mudaxaleyê de bi bandor nikaribû xwe bi dawî tomarkirinê bi hezaran kes jiyana pêvek.

Di dawiyê de, komên datayan mezin gelek îmkanên me ji bo ku bi texmînî sebebî ji welat observational de bilind dike. Tevî ku datasets mezin dikarim di bingeha xwe de pirsgirêkên bi çêkirina analîzên sebebî ji welat observational, hevcotî û tecrûbeyên-du xwezayî teknîkên ku lêkolîner ji bo îdîaya sebebî ji observational bi pêş xist welat-hem jî gelek ji datasets mezin sûdê biguherîne. Ez ê rave û biriyan vê îdîaya li detail mezintir piştre di vê beşa ku gava ez stratejiyên lêkolîn salix.

Tevî ku bigness e giştî milkekî baş gava ku bi awayekî rast bi kar anîn, min dît ku kiriye ku bigness bi gelemperî ji bo error têgehî meşîn. Ji ber hinek sedeman, bigness xuya dike ku rê lêkolînerên ku guh çawa daneyên xwe bi giştî bû. Gava ku bigness nayê kêm pêwîstî bi mereq li ser çewtî random, lê di rastiyê de zêde dike ku pêwîstiya bi mereq li ser çewtî sîstematîk, bi şêweyên şaşiyên ku ez ê li jêr ku salix ji meylekê rabe de çawa daneyên tên û komkirin. Di dataset biçûk, hem error random û error sîstematîk girîng be, lê di rê wundabûneke random dataset mezin dikare bê dûr di zikhev de û error sîstematîk serdest e. Lêkolînerên ku li ser çewtî sîstematîk heta dawî dê bi bikaranîna datasets mezin xwe ji bo bidestxistina texmîn rastîn ya tiştê nerast bawer ne; ew dê bibe egera bi dîrokeke (McFarland and McFarland 2015) .